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Noah Bubenhofer / Marc Kupietz 
Einleitung 


1. Funktionen von Visualisierungen in den Wissenschaften 


Visualisierungen von Daten spielen in den Wissenschaften eine wichtige Rolle 
im Forschungsprozess. Einerseits dienen sie der Illustration von gewonnener 
Erkenntnis, beispielsweise in der Form von Balken-, Streu- oder Liniendiagram- 
men, die Mess- oder Zàhlwerte repràsentieren. Solche Visualisierungen werden 
„Presentation Graphics“ (Präsentationsgrafiken) genannt (Chen u. a. 2008, S. 4). 
Andererseits sind Visualisierungen aber auch eigenständige Mittel der Erkennt- 
nisgewinnung, wenn andere Formen der Repräsentation von Wissen wie Listen, 
Tabellen oder Texte zu umfangreich oder zu komplex sind, um als Ganzes erfasst 
und gedeutet werden zu können. Visualisierungen dieser Art werden zur Gruppe 
der „Exploratory Graphics“ (explorativen Visualisierungen) gezählt (Chen u. a. 
2008, S. 5; Schumann und Müller 1999, S. 5). 

Explorative Visualisierungsmethoden werden insbesondere im Bereich 
der Visual Analytics (Keim u. a. 2010; Chen u. a. 2008) eingesetzt. Visualisie- 
rungen transformieren, gewichten und filtern komplexe Daten und bringen sie 
dadurch in eine Form, die sie als Informationen erfassbar und interpretierbar 
machen. Visualisierungen sind damit keine Abbildungen der Wirklichkeit, son- 
dern aufgrund von Relevanzkriterien geordnete und damit interpretative Reduk- 
tionen von Daten, die auf der Basis gestalterischer Vorgaben visuell repräsen- 
tiert werden. Visualisierungen könnten demnach auch als Scharnier zwischen 
quantitativ-maschinellen und qualitativ-interpretierenden Analysen angesehen 
werden, da durch einen iterativen Prozess der interpretativen Interaktion mit 
den Daten Modelle generiert werden (vgl. den Visual Analytics Process nach 
Keim u. a. 2010, S.10): „Visualisation becomes the medium of a semi-automated 
analytical process, where humans and machines cooperate using their respec- 
tive, distinct capabilities for the most effective results“ (Keim u. a. 2010, S.14). 
Insbesondere explorative Visualisierungen sind entsprechend nicht Endpro- 
dukt, sondern typischerweise Zwischenprodukt und Mittel, die (1) quantitativ- 
maschinelle mit der (2) qualitativ-interpretierenden Analyse in einem iterativen, 
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empirisch-hermeneutischen Erkenntnisprozess zu kombinieren. Dadurch wird 
etwa die Abduktion neuer, vielversprechender Hypothesen möglich (vgl. Jockers 
2013; Kupietz/Keibel 2009, S. 48). 

Der Wert visueller Methoden für die Analyse großer Datenmengen wird 
zwar in einigen Publikationen zur statistischen Theorie und Methode erkannt, 
trotzdem mahnen Chen et al. (2008, S. 4) die fehlende Reflexion über die gängi- 
gen Methoden der Visualisierung statistisch gewonnener Daten an: “Examples 
abound in almost every issue of every scientific journal concerned with quan- 
titative analysis. There are occasionally articles published in a more theoretical 
vein about specific graphical forms, but little else” (Chen u. a. 2008, S. 4). Aller- 
dings bleibt anzumerken, dass es eine Reihe von Arbeiten gibt, die die semioti- 
schen und kognitiven Grundlagen der Visualisierung reflektieren und Regeln 
für die Erstellung von Grafiken formulieren (Bertin 1967; Tufte 1983; Tufte 1997; 
Schumann und Müller 1999; Unwin u. a. 2006), die Algorithmen zur Erstellung 
von Visualisierungen, etwa von Graphen, diskutieren (Tamassia 2013; Brandes 
u. a. 2013) oder den Wert von Visualisierungen aus Sicht der Benutzerinnen und 
Benutzer, z. B. im Web, darlegen (Hearst 2009; Hearst und Rosner 2008). 

Insbesondere existiert eine Reihe von Arbeiten, die grundlegende semiotische 
und kulturelle Aspekte des Diagramms reflektieren: Welcher Art ist dieses Zei- 
chen? Wie werden Diagramme eingesetzt, um Wissen zu ordnen, zu generieren 
oder zu kommunizieren? Welche historischen Grundfiguren des Diagramms gibt 
es und wie hängen diese mit ideengeschichtlichen Entwicklungen zusammen? 
Hierzu sind in den letzten Jahren einige Arbeiten entstanden, die eine Theorie 
der Diagrammatik skizzieren und elaborieren - oft im Rückgriff auf Charles San- 
ders Peirce (Bauer und Ernst 2010; Bender und Marrinan 2010; Bredekamp u. a. 
2008; Krämer 2016; Liebsch und Mößner 2012; Reichert 2013; Siegel 2009; Stetter 
2005; Stjernfelt 2007). 

Die Wurzeln der explorativen Datenanalyse (“Exploratory Data Analysis”, 
“EDA”) gehen auf Tukey (1977) und Benzecri (1973b; 1973a) zurück, wobei 
die Geschichte der Visualisierung statistisch gewonnener Daten viel älter ist 
(Friendly 2005; Tufte 1983). So gilt Michael Florent van Langrens 1644 erstellte 
Grafik der Schätzungen verschiedener Astronomen zur Longitudinal-Differenz 
zwischen Toledo und Rom als erste visuelle Repräsentation statistischer Daten 
(Tufte 1997, S. 15). In der Folge wurden immer häufiger Visualisierungen ver- 
wendet, nicht nur, um komplexe statistische Zusammenhänge zu präsentie- 
ren, sondern auch, um sich einen Überblick über die Daten zu verschaffen und 
überhaupt die immer größer werdenden Datenbestände und darin auftretende 
Zusammenhänge analysieren zu können (Zhang 2008, S. IX). Die Grundlagen 
der visuellen Datenanalyse werden in einer Reihe von Werken erarbeitet und 
beispielhaft angewandt (Zhang 2008; Dill u. a. 2012; Chen u. a. 2008; Burkhart 
und Eppler 2004; Mazza 2009; Tufte 1983; Keim u. a. 2010; Arnold 2008). 
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2. Traditionelle Visualisierungen in der Sprachwissenschaft 


In der Linguistik sind besonders in der Dialektologie Visualisierungen in Form 
von Karten schon lange gebràuchlich und sind sowohl ,Dokumentations-“ als 
auch „Forschungsmittel“ (Naumann 1982) - dienen also sowohl der Präsentation 
von Ergebnissen als auch der Exploration von Daten. Es entwickelten sich ver- 
schiedene Typen von Themenkarten (Originalformkarten, Punktsymbolkarten, 
Flächenkarten, kombinierte Karten etc.), die sich zwischen Dokumentation und 
Interpretation bewegen. Auch in der Phonetik sind Visualisierungen für explora- 
tive Zwecke wichtig, z. B. Spektrogramme, um die Lage der Formanten zu erken- 
nen und damit beispielsweise die Stimmqualität oder prosodische Eigenschaften 
zu messen (Reetz 2003). 

In der strukturalen Syntax sind Baumgraphen und andere Visualisierungs- 
möglichkeiten von Strukturen (vgl. z. B. die syntagmatische Verkettung als 
Spirale bei Mikuš 1952; zit. nach Thümmel 1993a, S. 271) weit mehr als nur 
eine Darstellungshilfe, sie sind vielmehr Ausdruck strukturalistischer The- 
oriebildung (Thümmel 1993b; Heringer 1993). Ähnlich verhält es sich mit 
zahlreichen weiteren Visualisierungen von Modellen, die Sprachwirklichkeit 
beschreiben wollen. Exemplarisch sei auf die im germanistischen Raum relativ 
bekannte Visualisierung des soziolinguistischen Varietätenmodells von Löffler 
(1994) verwiesen. Es folgt dem Forschungsparadigma der Varietätenlinguis- 
tik, die Sprache als komplexe Menge von sprachlichen Varietäten und nicht 
als „unmittelbar gegebene[n] (homogene[n]) Gegenstand“ ansieht (Bußmann 
2002, S. 729), was in der Visualisierung durch sich überlagernde Vektoren 
widerspiegelt wird. Ein weiterer wichtiger Anwendungsbereich von Visu- 
alisierungen sind Stammbäume in der vergleichenden Sprachwissenschaft. 
Schleicher (1860, S. 28) gilt als erster Sprachwissenschaftler, der eine Stamm- 
baumdarstellung für den Sprachvergleich eingesetzt hat (Sutrop 2012, S. 299). 
Der Stammbaum reproduziert als gerichteter Graph bestimmte Ordnungs- 
prinzipien, die sich nur bedingt mit modernen Auffassungen von Sprachfami- 
lien vereinbaren lassen (Sutrop 2012, S. 320). Alternative Darstellungsformen 
ergeben sich dabei auch aus neuen methodischen, statistischen Zugängen (Fox 
1995; Jäger 2014). 

Weniger offensichtlich sind die Formen der Visualisierung in der Gesprächs- 
analyse: Dort müssen die flüchtigen Daten des Gesprächs dokumentiert werden, 
üblicherweise in Form einer Transkription (Redder 2001; Deppermann 2001). 
Erst die Transkription erlaubt anschließend die Exploration der Daten (Sager 
2001). Die Art der Transkription richtet sich nach dem Erkenntnisinteresse, 
sodass verschiedene Transkriptionsstandards existieren, die als eine Form von 
Visualisierung je unterschiedliche Aspekte der komplexen Daten (Translitera- 
tion, Normalisierung, Intonation, Betonung etc.) hervorheben. 
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Interessant ist auch ein Blick über die engen disziplináren Grenzen zu den 
Literaturwissenschaften: Hier gilt Moretti (2000; 2009) als einer der Wegbereiter 
für eine neue, visuelle Sicht auf Literatur, die seinem Paradigma des Distant Rea- 
ding folgt. Voraussetzung dafür ist die Computerphilologie, die beispielsweise 
die kritische Edition von Texten mit den Möglichkeiten der digitalen Aufbe- 
reitung (Annotation, dynamische Textdarstellung etc.) und Analyse verbindet 
(Jannidis 1999; Jannidis et al. 2017; Lauer 2011). 

Einen erhellenden Überblick über Visualisierungen in der Linguistik bietet 
Harleman Stewart (1976). Sie reflektiert den Einfluss von grafischen Repräsen- 
tationen auf die Theoriebildung und analysiert Visualisierungen wie Baumgra- 
phen in der vergleichenden Sprachwissenschaft, Phonetik, Syntax etc. Dabei 
wird die Komplexität des Visualisierungsprozesses deutlich, durch den nicht 
nur Daten interpretiert, sondern heuristisch Theorien modelliert werden. Diese 
ältere Publikation reflektiert jedoch noch nicht die neueren Entwicklungen im 
Bereich der Visualisierungen in der Sprachwissenschaft, die sich zudem seit den 
1970er-Jahren in vielen Bereichen stark gewandelt hat. 


3. Visuelle Textanalyse: Visualisierungen in der Korpuslinguistik 
und den datenintensiven Digital Humanities 


In der Sprachwissenschaft und den Digital Humanities ist es insbesondere die 
Korpuslinguistik, bei der der Bedarf für neue Formen der visuellen Analyse stark 
ansteigt. Bei hypothesengeleiteten Ansätzen entstehen quantitative Analyseergeb- 
nisse, die visualisiert werden können („presentation graphics“). Doch die Verfüg- 
barkeit großer Textmengen erlaubt es auch, datengeleitete Analyseverfahren anzu- 
wenden, die der Hypothesengenerierung dienen. Im größeren Kontext der Digital 
Humanities zeigt sich zudem die Chance, nicht nur mit Textdaten zu arbeiten, son- 
dern verschiedene Datentypen (Bilder, Daten historischer Ereignisse, geografische 
Informationen - GIS, soziodemografische Daten etc.) integrieren zu können. In der 
Korpuslinguistik werden deshalb vermehrt Methoden der analytischen Statistik 
und des Data Minings angewandt, um die verfügbaren Daten auswerten zu kön- 
nen (Manning und Schütze 2002; Baayen 2008; Gries 2009b). 

Allerdings bringt die Analyse solcher Daten eine Reihe von Herausforde- 
rungen mit sich: ı) Textdaten gehören zu den unstrukturierten Datentypen und 
unterscheiden sich von anderen Daten, die dem Data Mining normalerweise 
zugrunde liegen. 2) Die Daten sind oft heterogen, da sie unterschiedliche Daten- 
typen vereinen. 3) Die Daten sind oft komplex, da die einzelnen Datentypen 
wiederum eine Vielzahl von Ebenen umfassen können: Bei Textdaten sind das 
verschiedene Annotationsebenen, wie sie typischerweise in Korpora, die mit 
Methoden des Natural Language Processing aufbereitet worden sind, auftreten 
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(Wortartkategorien, Lemma, syntaktische Struktur), aber auch (halb-)manuell 
erzeugte Annotationen. 

In anderen Disziplinen, die mit Big Data dieser Art arbeiten, erwiesen sich 
visuelle Analysemethoden, eben „exploratory graphics“, als besonders fruchtbar 
(Tukey 1977; Thomas und Cook 2005; Unwin u. a. 2006; Chen u. a. 2008; Dill u. a. 
2012). Als Teilgebiet der visuellen Analyse etablieren sich gegenwärtig die Visual 
Text Analytics (visuelle Textanalyse), die das Paradigma der Datenvisualisierung 
auf Textdaten anwendet (Risch u. a. 2008; Rohrdantz u. a. 2010). Erste Anwen- 
dungsbeispiele sind vielversprechend, doch fehlt noch weitgehend die theoreti- 
sche und methodische Reflexion. 

Visuelle Analysemethoden von Textdaten können dann gewinnbringend 
eingesetzt werden, wenn ein Analyseverständnis vorherrscht, bei dem nicht die 
Einzelbelege im Vordergrund stehen, sondern bei dem mit statistischen Mitteln 
Regularitäten im Sprachgebrauch aufgedeckt werden. Dazu stehen immer grö- 
Bere Korpora in Größenordnungen ab 1 Mia. Textwörter zur Verfügung, und es 
wird deutlich, dass ein Mehr an Daten auch ein Mehr an Analysemöglichkeiten 
bietet (Church und Mercer 1993). Die dafür nötigen statistischen Methoden wer- 
den gegenwärtig entwickelt und diskutiert, wie eine Vielzahl von methodolo- 
gisch-statistischen Arbeiten (vgl. z. B. Kilgarriff 2005; Gries 2005; Gries 2008a; 
Gries 2009a; Gries 2010b; Hilpert & Gries 2009; Gries 2010a; Evert 2005; Rietveld & 
Hout 2005; Biber & Jones 2009) zeigt, wobei sich diese Forschungsrichtung auch 
bereits in Lehrbiichern niederschlägt (Gries 2008b; Baayen 2008). Fragen der 
Visualisierung generell, insbesondere auch der visuellen Analyse, scheinen dabei 
noch sekundär zu sein, obwohl z. B. Gries betont, dass die Visualisierung der 
Ergebnisse deskriptiver Analyse hilfreich ist (Gries 2008b, S.268) und die bereits 
verfügbaren statistischen Methoden, darunter auch Formen der Visualisierung, 
noch längst nicht ausgeschöpft sind (Gries 2o1ob, S. 24). 

Korpus- und computerlinguistische Anwendungen visueller Textanalyse 
liegen z. B. für diskursive Daten vor (Luo u. a. 2012), um Sprachwandel oder 
semantische Variation zu analysieren (Hilpert 2011; Hao u. a. 2010; Rohrdantz, 
Hao u. a. 2012) oder die Lesbarkeit von Texten visuell auszudrücken (Oelke, 
Spretke u. a. 2012). Weiter gibt es Vorschläge, kontinuierlich entstehende Text- 
daten zu visualisieren (Rohrdantz u. a. 2011; Diakopoulos u. a. 2010) oder Ergeb- 
nisse von maschinellen semantischen Analysen, z. B. von Kundenrezensionen, 
zusammenfassend darzustellen (Alper u. a. 2011; Rohrdantz, Hao u. a. 2012; Shi 
u. a. 2010). Einige Arbeiten versuchen neue Visualisierungsformen für traditi- 
onelle, aber unbefriedigende Formate zu finden, wie z. B. Kollokationsgraphen 
oder Wortwolken (Gambette und Veronis 2009; Rockwell u. a. 1999; Wattenberg 
und Viegas 2008; Culy und Lyding 2010; Leblanc und Pérés 2010; Oelke, Eklund 
u. a. 2012; Collins u. a. 2009; Brandes u. a. 2006), diatopische Karten und andere 
Geotextdaten (Vriend u. a. 2011; Gregory und Hardie 2011), Netzwerke (Efer u. a. 
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2012), Syntax-Baumgraphen (Derrick & Archambault 2010) oder andere gram- 
matische Muster (Elliott u. a. 2001; Säily u. a. 2011). Visualisierungen werden 
auch eingesetzt, um komplexe Korrelationen darzustellen, z. B. in Datensamm- 
lungen linguistischer Eigenschaften von Vornamen (Wattenberg 2005) oder bei 
der Berechnung von Ähnlichkeiten zwischen Sprachen oder Dialekten (Rohr- 
dantz, Hund u. a. 2012; Zastrow 2011). Bei der maschinellen Textklassifikation 
dienen Visualisierungen auch dazu, die Auswahl der Variablen für die Modellie- 
rung zu unterstützen (May u. a. 2010; Oelke u. a. 2008; Chuang u. a. 2012). 

Der Forschungsstand zeigt, dass in der Sprachwissenschaft sowohl für Dar- 
stellungszwecke als auch für die Datenexploration häufig Visualisierungstech- 
niken eingesetzt werden, die Reflexion darüber jedoch oft fehlt. So werden bei- 
spielsweise Wortwolken zur Darstellung von häufigem Vokabular eingesetzt 
- insbesondere auch außerhalb der Wissenschaften scheint diese Darstellung, 
z. B. als Tag-Clouds, sehr attraktiv zu sein -, die Visualisierung weist aber 
den gravierenden Mangel auf, dass die Position des Wortes in der Wolke nicht 
semantisiert ist (die Wörter also zufällig angeordnet sind) oder die Semantisie- 
rung unwichtige Kriterien abbildet (bei alphabetischer oder gestalterisch opti- 
mierter Anordnung). Darüber hinaus sind die statistischen Berechnungsmetho- 
den meist nicht transparent oder entsprechen nicht dem State of the Art, wenn 
z. B. die Größe des abgebildeten Wortes in ikonischem Verhältnis zur absoluten 
Auftretenshäufigkeit (unter Ausschluss von bestimmten Stoppwörtern) statt 
im Verhältnis zur statistischen Signifikanz der Frequenz im Vergleich zu einem 
Referenzkorpus steht. 


4. Konzeption des Buches 


Das vorliegende Buch ist aus dem im November 2014 veranstalteten Herrenhäu- 
ser Symposium Visuelle Linguistik — Theorie und Anwendung von Visualisierun- 
gen in der Sprachwissenschaft' entstanden. Ziel des Symposiums war es, vor dem 
oben dargelegten historischen und theoretischen Hintergrund die aktuellen und 
zukünftigen Herausforderungen und Chancen im Hinblick auf Visualisierungen in 
der Linguistik zu diskutieren. Ein wesentliches Anliegen des Symposiums war es 
dabei, ein sowohl horizontal breites Spektrum verschiedener Ansätze in der Lingu- 
istik und den angrenzenden Disziplinen in den Digital Humanities aufzugreifen als 
auch vertikal das Spektrum zwischen meta-theoretischen Überlegungen und kon- 
kreten Anwendungen abzubilden, um verschiedene Ansatzalternativen und ihre 
Integration in Methodologien und Arbeitsprozesse im Hinblick auf den möglichen 
Erkenntnisgewinn in einem interdisziplinären Teilnehmerfeld zu diskutieren. 


1 Gefördert von der VolkswagenStiftung (Az. 88445). 
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Das Buch enthält schriftliche Ausarbeitungen ausgewählter Beiträge des Sym- 
posiums und gliedert sich in die drei großen Bereiche I Visual Linguistics, II Praxis 
und III Tools. Im ersten Teil sind Beiträge versammelt, die die theoretischen und 
methodologischen Grundlagen von Visualisierungen in der Linguistik diskutieren. 
Noah Bubenhofers Beitrag zur Eröffnung ist gleichzeitig als Einführung ins Thema 
und starkes Plädoyer für eine neue Sicht auf das Feld gedacht, er dient zudem auch 
dazu, die folgenden Beiträge zu kontextualisieren. Ebenfalls grundlegenden Cha- 
rakter hat der Beitrag von Rainer Perkuhn und Marc Kupietz, in dem insbesondere 
die theoretisch-methodologischen Grundlagen für Visualisierungen im gegenwär- 
tig wichtigsten Bereich der Linguistik, der Korpuslinguistik, dargelegt werden. Die 
weiteren Beiträge des ersten Teils adressieren weitere Bausteine einer Methode der 
visuellen Linguistik (Lauersdorf), wobei Jana Pflaegings Beitrag auch formal das 
Thema aufgreift, indem ihr Standpunkt zur Ästhetisierung linguistischer Wissens- 
vermittlung auch als visuelles Statement gestaltet ist. 

Im zweiten Teil folgen Beiträge, die einen Einblick vermitteln, wie in die 
Forschungspraxis mit visuellen Analysemöglichkeiten umgegangen wird. Einer- 
seits werden darin linguistisch, literaturwissenschaftlich und psycholinguistisch 
interessante Erkenntnisse zu verschiedenen Themen - Referenzen in der Lyrik 
(Hoenen), Toponyme in literarischen Texten (Barbaresi) und Story Complexity 
(Flekova / Stoffel / Gurevych / Keim) - präsentiert, andererseits die Funktion und 
Bedeutung der dafür benutzten visuellen Analyseinstrumente kritisch reflektiert. 

Der dritte Teil „Tools“ fokussiert stärker die Ebene des Analysewerkzeugs und 
zeigt anhand verschiedener Anwendungsgebiete Methoden der visuellen Ana- 
lyse. Den Auftakt bildet ein Beitrag zur sehr universell einsetzbaren Program- 
miersprache R, die häufig für visuelle Analysen unter Einsatz verschiedenster 
Methoden eingesetzt wird (Wolfer, Hansen). Es folgen Beiträge über Werkzeuge, 
zunächst zur explorativen Analyse von Korpora mit einer dreistufigen Reali- 
sierung der Visualisierungsprozesse (Rüdiger), dann zur Darstellung und Inter- 
pretation von Topic Models (Hinneburg / Oberländer) und zur Signifikanzein- 
schätzung von Frequenzunterschieden bei N-Grammen (Todorova / Chinkina). 
Im letzten Beitrag wird der Einfluss von Visualisierungen auf die Usability von 
Annotationstools diskutiert (Burghardt), sodass ein breites Feld von visuellen 
Methoden und Anwendungsbereichen in der Linguistik skizziert werden kann. 

Die Herausgeber bedanken sich bei der VolkswagenStiftung für die großzü- 
gige Finanzierung des Symposiums und der vorliegenden Publikation. Ebenfalls 
möchten wir uns beim Verlag für die umsichtige Betreuung und das sorgfäl- 
tige Lektorat und die Produktion des Buches bedanken. Und schließlich geht der 
Dank an alle Autorinnen und Autoren dieses Bandes, ohne deren Engagement 
weder das Symposium erfolgreich durchgeführt noch das Buch hätte entstehen 
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I. Visual Linguistics 


Noah Bubenhofer 


Visual Linguistics: Plädoyer für ein 
neues Forschungsfeld 


Abstract Diagramme spielen auch in der Linguistik eine große Rolle. Ob der 
Verständlichkeit, mit der Diagramme erstellt und verwendet werden, geht die 
Reflexion über die diagrammatische Praxis manchmal verloren. Der folgende 
Beitrag ist ein Plädoyer, diese Praxis aus drei unterschiedlichen Perspektiven 
zu befragen: Aus diagrammatischer, algorithmischer und wissensgeschichtli- 
cher Perspektive. Dieses Programm einer „Visual Linguistics“ stellt Fragen nach 
dem Charakter von Diagrammen, dem Status von Diagrammen in Forschungs- 
prozessen und insbesondere dazu, welchen Einfluss Digitalität auf die Visua- 
lisierung sprachlicher Phänomene ausübt. Schließlich kann mit Ludwik Fleck 
die diagrammatische Praxis in Beziehung zu wissenschaftlichen Denkstilen 
gesetzt werden. Vor dem Hintergrund dieser Überlegungen ergeben sich fünf 
diagrammatische Grundformen, die bei der Visualisierung von sprachlichen 
Daten eine wichtige Rolle spielen: Liste, Karte, Partitur, Vektoren, Graph/Netz. 
Listen und Partituren werden im vorliegenden Beitrag ausführlich diskutiert 
und es wird gezeigt, welche Rolle sie bei der Gegenstandskonstitution in der 
Linguistik haben. 


1. Einleitung 


Dialektkarten, Syntaxbäume, Kollokationsgraphen, Kommunikationsmodelle, 
Gesprächstranskripte, geclusterte Netzwerke: Die Linguistik ist geprägt von Dia- 
grammen verschiedenster Art, um theoretische Modelle zu visualisieren, Daten 
zu explorieren oder Ergebnisse zu veranschaulichen. Damit nimmt die Diszip- 
lin keine Sonderstellung ein gegenüber anderen Disziplinen. Wissenschaftliche 
Visualisierungen sind überall ein wichtiges Mittel mit vielfältigen Funktionen. 
Der Umgang mit Visualisierungen in der Linguistik ist aber, um es positiv zu 
formulieren, unbeschwert und vorwiegend kanonisch. Unbeschwert, weil weit- 
gehend eine Reflexion darüber fehlt, welche semiotischen und hermeneutischen 
Eigenschaften und Effekte und welche wissenschaftsgeschichtlichen Implikatio- 
nen Visualisierungen haben. Kanonisch, weil Visualisierungen in der Linguistik 
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mehrheitlich als Mittel zum Zweck angesehen werden und deren Gebrauch des- 
wegen bewàhrten Praktiken folgt, das Experiment mit alternativen Visualisie- 
rungen aber gescheut wird. 

Im Folgenden möchte ich für ein Programm plädieren, das zwar der Visu- 
alisierungspraxis in der Linguistik die Unbeschwertheit nimmt, dafür aber 
Erkenntnisse bietet, die für das Selbstverständnis des Fachs von Bedeutung sind, 
die Gründe für die Wirkmächtigkeit von Visualisierungskanons untersucht und 
zum Experiment anstiftet. Dieses Programm nenne ich „Visual Linguistics“. 

Die Eckpunkte des Programms ergeben sich aus drei Perspektiven, die mir 
fruchtbar für eine Analyse von Visualisierungspraktiken erscheinen und die ich 
im Folgenden näher beschreiben möchte: 


— Die diagrammatische Perspektive: Was macht ein Diagramm zum Dia- 
gramm und welchen Status hat es in Forschungsprozessen? 

— Die algorithmische Perspektive: Was ändert sich bei der Visualisierung von 
sprachlichen Phänomenen, wenn die Daten digital vorliegen und Visualisie- 
rungen computergeneriert sind? 

— Die wissenschaftsgeschichtliche Perspektive: Warum ist das Diagramm als 
Drittes zwischen Sprache und wissenschaftlichem Arbeitsinstrument so 
wirkmächtig, dass es nicht nur Denkstile repräsentiert, sondern diese auch 
prägt? 


Um es deutlich zu sagen: Für die jeweiligen Perspektiven gibt es einige Vorar- 
beiten aus der Philosophie und Semiotik (Diagrammatik), den Digital Huma- 
nities (Software Studies, Critical Code Studies), Medienwissenschaften (Com- 
puter als Medium) und der Wissenssoziologie und Wissenschaftsgeschichte. 
Die Verbindung dieser Erkenntnisse und die Anwendung auf die Linguistik 
ist jedoch nach wie vor ein Desiderat. Zudem ergaben sich innerhalb weniger 
Jahre und ergeben sich auch weiterhin durch die Masse digitaler Daten für die 
Geistes- und Kulturwissenschaften entscheidende Veränderungen, die mitbe- 
dacht werden müssen. 


2. Die diagrammatische Perspektive 


Wissenschaftliche Visualisierungen sind Diagramme, die eine dritte Position 
zwischen Bild und Text einnehmen, einer „Schriftbildlichkeit“ (Krämer 2012a) 
angehören. Sie sind ein Ensemble von grafischen Ausdrucksmitteln, die im 
Verhältnis einer „entworfenen Ähnlichkeit“ (Bauer und Ernst 2010: 18) zum 
Gemeinten stehen. 
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„Diagramme sind, so könnte man vielleicht sagen, graphische 
Abkürzungsverfahren für komplexe Schematisierungen. Sie 
bewahren ein Minimum ästhetischer Anschauung, das wir 
benötigen, um zu verstehen, wovon die Rede ist, vor allen Din- 
gen, um uns von abstrakten Sachverhalten in buchstäblichem 
Sinn ein Bild machen zu können“ (Stetter 2005: 125) 


Entscheidend ist bei einem Diagramm die Typenbildung (vgl. Abb. ı). Durch sie 
unterscheidet sich das Diagramm vom Bild (Stetter 2005: 125). 


Abb 1: Ein Kreis als Diagramm. 


Wenn diese Form als Realisierung eines abstrakten Typs, nämlich eines Krei- 
ses, wahrgenommen wird, ist die Form ein Diagramm. Wir abstrahieren von 
der tatsächlichen Form und sehen darin die idealisierte Form des Kreises. Die 
grafische Form steht in einem ikonischen Verhältnis zum Denotat: „Die ikoni- 
schen Zeichen geben einige Bedingungen der Wahrnehmung des Gegenstan- 
des wieder“ (Eco 2002: 205); die Visualisierung, das Diagramm beschränkt sich 
also auf bestimmte Aspekte des Denotats. Diese Beschränkung ist allerdings 
willkürlich und deswegen konventionalisiert; die Wiedergabe funktioniert 
also „erst, nachdem diese [Bedingungen] auf Grund von Erkennungscodes 
selektioniert und auf Grund von graphischen Konventionen erläutert worden 
sind“ (Eco 2002: 205). 

Diagramme werden mit Peirce (1994) gesprochen als „Sinzeichen“ wahr- 
genommen, als „Verwirklichung eines abstrakten Modells“ (Eco 1977: 58). 
Ihre grafischen Variationsmöglichkeiten wie Strichdicke, Färbung, leichte 
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Formabweichungen sind nicht bedeutungstragend,* im Unterschied beispiels- 
weise zu Bildern, bei denen solche „Qualizeichenmerkmale“ bedeutungstra- 
gend sind (Peirce 1994: 2.244; Eco 1977: 58-59). Sie entwerfen eine „propor- 
tionale Homologie“, bei der sie „eine Logik darstellen, die vom selben Gesetz 
beherrscht wird wie die Diagramme“ (Eco 1977: 143). Das wird deutlich, wenn 
beispielsweise ein Balkendiagramm betrachtet wird: Die Länge der Balken 
steht keineswegs in einem Ähnlichkeitsverhältnis zum Denotat, also einer 
Menge gezählter Entitäten, sondern die Balkenlängen stellen untereinander 
Proportionen dar, die homolog sind zu den denotierten abstrakten Zahlenver- 
hältnissen. Der Zauber des Diagramms liegt darin, dass mit diesem grafischen 
Modus, mit dem die Balken gezeichnet werden können, beliebige Zahlenpro- 
portionen abgelesen werden können. Deswegen steht das Diagramm in einem 
Ähnlichkeitsverhältnis zum abstrakten Denotat der Zahlenverhältnisse. 

Damit wird ein weiterer Aspekt deutlich, nämlich dass mit Diagrammen ope- 
riert werden kann (Krämer 2009): Besonders anschaulich dafür wird dies bei Kar- 
ten. Auf ihnen wird mittels grafischer Elemente ein Schema eines bestimmten 
Ausschnittes des Realraums als Virtualraum dargestellt. Mit diesem Diagramm 
kann nun operiert werden, sobald die eigene Position und Ausrichtung darauf 
lokalisierbar ist. Die Karte macht eine Voraussage darüber, wo man einen Weg, 
ein Hindernis usw. antreffen wird, wenn man sich in eine bestimmte Richtung 
bewegt. Durch das Operieren mit der Karte ist es möglich, einen Weg zu fin- 
den (Krämer 2012b). Genauso ist das Sehen von Zahlenrelationen im Balkendia- 
gramm eine solche Operation. 

Besonders wichtig sind aber Operationen in Diagrammen bei Visualisierun- 
gen explorativer Datenanalysen (Chen u. a. 2008; Keim u. a. 2010): In solchen 
Visualisierungen wird bereits verfügbares Wissen diagrammatisch dargestellt, 
allerdings in einer für Operationen mit dem Diagramm optimierten Form. 
Durch die Arbeit mit dem Diagramm werden bestimmte Zusammenhänge erst 
sichtbar und dadurch neues Wissen aus dem Diagramm gezogen. 

Obwohl solche explorativen Visualisierungen in neuerer Zeit etwa im Para- 
digma der Visual Analytics für Data-Mining-Aufgaben besonders wichtig sind, 
muss betont werden, dass dieses operative Element grundsätzlich in allen Dia- 
grammen vorhanden ist (allerdings mit mehr oder weniger starken Ausprägung) 


1  Selbstverständlich können in Diagrammen Strichdicken, Färbungen etc. sehr wohl 
bedeutungstragend sein. Es gibt aber immer ein Maß an Abweichung davon, das 
nicht mehr bedeutungstragend ist: Bei einem handgezeichnetem Diagramm, bei 
dem die Farben Rot und Blau zur Markierung von Klassen o. Ä. eingesetzt werden, 
werden alle ähnlichen Farbtönungen, die beispielsweise durch unterschiedlichen 
Druck des Stifts beim Zeichnen entstanden sind, unter der gleichen Farbe subsu- 
miert. 
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und vor allem kein neues Phänomen ist. Ein Beispiel dafür ist eine Passage aus 
Platons Menon, wo die Erkenntnisfunktion des Diagramms deutlich wird (Krä- 
mer 2009): Die Aufgabe herauszufinden, welche Operationen nötig sind, um ein 
neues Quadrat mit der doppelten Fläche des ursprünglichen Quadrates zu erhal- 
ten, wird allein diagrammatisch durch Zeichnen gelöst. Durch die erste, fehler- 
hafte, Operation, nämlich das Verdoppeln der Seitenlängen, erwächst aus der so 
erweiterten Zeichnung die Erkenntnis, dass damit nicht die doppelte, sondern 
vierfache Fläche erzeugt worden ist. Der entscheidende Schritt ist nun zu sehen, 
dass die Hälfte dieser vervierfachten Fläche reichen würde und dass dies durch 
das Halbieren der vier entstandenen Quadrate mit einer Diagonale erreicht wer- 
den kann. Nur im Diagramm und nur durch die Operation damit kann diese 
Tatsache gesehen werden: 


„Wir sehen in der diagrammatischen Figur ein mathematisches 
Konzept; und wir sehen in den Transformationen der Figur den 
verallgemeinerbaren Lösungsweg eines generellen Problems, 
d. h. also eine mathematische Einsicht“ (Krämer 2009) 


Darin liegt die Hoffnung jeglicher Visual Analytics, also der explorativen, visuel- 
len Datenanalysen, verborgen: Durch die geschickte Überführung von Wissen in 
ein Diagramm damit operieren und eine verallgemeinerbare Erkenntnis daraus 
ziehen zu können, weil das Diagramm eben in einem schematisierten, ikoni- 
schen Verhältnis zu den Daten steht. Dies bedeutet nicht, dass die diagramma- 
tische Operation immer ausreicht, um Erkenntnisse zu generieren - oft werden 
aus solchen Operationen Hypothesen generiert, die danach wiederum mit ande- 
ren Methoden getestet werden müssen. 

In den Beiträgen in diesem Buch finden sich einige Beispiele für visuelle Ana- 
lysemethoden. Ein Beispiel ist der „Topic Explorer“ von Hinneburg und Oberlän- 
der (S. 269), bei dem eine komplexe Darstellung von Topic Models gerechnet 
auf einem beliebigen Textkorpus die Interaktion mit ebendiesem Modell erlaubt. 
Deutlich wird bei diesem Beispiel aber auch, dass sich das Operieren mit sol- 
chen visuellen Analyseinstrumenten selten auf rein diagrammatische Aspekte 
beschränkt, sondern damit auch die statistische Modellierung davor beeinflusst 
wird. Hinneburg und Oberländer erhoffen sich somit nicht nur, durch das Ope- 
rieren neue Erkenntnisse aus den Daten ziehen zu können, sondern damit auch 
eine „Plausibilitätsstruktur zur Interpretation der Themen“ (S. 270) erschließen 
- also das statistische Modell des (in diesem Fall) Topic Models verstehen zu 
können „ohne detaillierte Kenntnisse der zugrunde liegenden mathematischen 
Theorie“ (S. 270) besitzen zu müssen. 
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Ich werde weiter unten deshalb auch argumentieren, dass ein algorithmisch 
erstelltes Diagramm, um Operationalitàt zu ermöglichen, mehr sein muss als ein 
interaktives Diagramm. 

Die meisten Diagramme erlauben zumindest eine minimale Form des Ope- 
rierens. Besonders ausgeprägt ist dies bei den oben bereits erwähnten explorati- 
ven Visualisierungen, wie sie in der datenintensiven Geistes- und Sozialwissen- 
schaften zur Anwendung kommen. Neben diesen explorativen Visualisierungen 
gibt es aber auch solche, die primär der Präsentation von bereits gewonnenen 
Erkenntnissen dienen. Solche Präsentationsgrafiken (Chen u. a. 2008: 5) sollen 
eine Erkenntnis klar und deutlich visualisieren. In der Varietätenlinguistik die- 
nen Karten mit eingezeichneten Isoglossen diesem Zweck: Die zugrunde liegen- 
den Daten, die zur Verortung der Isoglossen geführt haben, sind ggf. nicht mehr 
sichtbar. Eine Varietätenkarte aber, auf der viele erhobene Merkmalsausprägun- 
gen visualisiert werden, dient eher der Exploration; im besten Fall können durch 
die Arbeit mit der Karte Dialekträume bestimmt werden. 

Schließlich dienen Diagramme aber oft auch dazu, mehr oder weniger kom- 
plexe Modelle zu skizzieren. Marc Richard Lauersdorf verweist in diesem Band 
auf eine Reihe von Diagrammen, die in der Linguistik dazu dienten, Theorien zu 
verdeutlichen und die zu „ikonischen“ Visualisierungen geworden sind (S. 91). 
Der Beitrag von Jana Pflaeging in diesem Band (S. 123) zeigt Beispiele dafür, wie 
Bildmetaphern verwendet werden können, um theoretische Konzepte zu ver- 
deutlichen - die, so Pflaeging, zu einem „lange verweilenden Blick“ und „wilder 
Semiose“ führen können. Die grundsätzliche Offenheit gegenüber unterschiedli- 
chen Interpretationen von Diagrammen betont auch Lauersdorf und konzipiert 
Diagramme deswegen als objets d’art (S. 93). In der Linguistik haben Visuali- 
sierungen von Theorien eine lange Tradition, denkt man etwa an die verschiede- 
nen Darstellungen des Zeichenkonzeptes bei Saussure („Ei“), Bühler, Morris etc., 
die als Abbreviationen der jeweiligen Konzepte zum Fachwissen gehören. 

Fast alle Visualisierungen in diesem Band sind algorithmisch erstellt und 
dienen der Exploration von Daten. In der datenintensiven Linguistik und den 
Digital Humanities ist dies eine Visualisierungsform, die in den letzten Jahren 
besonders viel Aufmerksamkeit gewinnen konnte. Ich möchte mich deshalb im 
Folgenden auf diesen Typus fokussieren und als Nächstes diese algorithmische 
Perspektive einnehmen und ausführlicher diskutieren. Meine Argumentation, 
insbesondere anschließend bei der wissenschaftsgeschichtlichen Perspektive, 
beschränkt sich jedoch nicht grundsätzlich auf diesen Typus. 
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3. Die algorithmische Perspektive 


Die Visualisierungen, wie sie in datenintensiven Geisteswissenschaften verwen- 
det werden, sind Kinder einer „Welt der Maschinen“ (Moles 1959; zit. nach Hörl 
2008: 94), und das in zweifacher Weise: Einerseits modellieren sie auf algorith- 
mische Weise ein Phänomen, simulieren dies also computertechnisch und lassen 
den Computer „zu einem wesentlichen epistemischen Tool“ (Hörl 2008: 97) wer- 
den. Andererseits ist bereits das Phänomen selber digital. Auch wenn die digita- 
len Daten auf nichtdigitale Gegenstände der Welt referieren (Texte, Bilder, Per- 
sonen), werden sie algorithmisch nur greifbar in der übersetzten, digitalen Form, 
sie werden in den „Bestand des Technischen“ integriert (Rheinberger 1994: 409). 


3.1 Computer als Metamedium 


Die oben genannten methodischen Paradigmen - datengeleitete Analysen, 
Visual Analytics - sind möglich dank bestimmter technischer Voraussetzungen, 
nämlich Mitteln der Informatik. Zum einen benötigt man Rechner, also Hard- 
ware, um Daten digital verarbeiten zu können, zum anderen Software. Selbst 
wenn eine Visualisierung händisch skizziert wird, wird sie in fast allen Fällen für 
die Publikation digital weiterverarbeitet, nachdem sie gescannt worden ist. In 
den meisten Fällen entstehen Visualisierungen jedoch bereits im digitalen Raum 
— und meist sogar algorithmisch. 

Für die Erstellung von wissenschaftlichen Visualisierungen hat sich eine Pra- 
xis entwickelt, in der bestimmte Programme dafür verwendet werden. Besonders 
weit verbreitet beispielsweise sind sog. Office-Programme wie Microsoft Excel 
oder OpenOffice Calc.” Neben Software, die leicht über eine grafische Benut- 
zeroberfläche bedient kann, werden jedoch auch Programmiersprachen wie „R“ 
oder „JavaScript“ (und viele weitere) verwendet, insbesondere um algorithmi- 
sche Visualisierungen zu erzeugen (siehe dazu den Beitrag von Wolfer / Hansen- 
Morath, S. 227). Eine Programmiersprache ist dabei ein Mittel, um sehr flexibel 
und genau Anweisungen an einen Rechner zu formulieren, bestimmte Opera- 
tionen durchzuführen (vgl. dazu die gut lesbare Einführung von Ford 2015). 
Programmiersprachen gibt es auf unterschiedlichen Abstraktionsebenen; eine 
sog. höhere Programmiersprache erlaubt beispielsweise die Formulierung von 


2 Interessanterweise entstehen Visualisierungen auch mit Software, die nicht dafür 
gedacht ist, etwa mit Microsoft PowerPoint, das für die Präsentation von Folien, nicht 
aber die Erstellung von druckfähigen Grafiken entwickelt wurde. Daran zeigt sich die 
Wirkmächtigkeit von Praktiken, die weit über die intendierten Verwendungsweisen 
eines Werkzeugs hinausgehen können. 
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Anweisungen, die sich z. B. so paraphrasieren lassen: Mache für jedes Wertepaar 
der Spalten 3 und 4 im Datensatz einen Punkt, wobei der Wert der Spalte 3 der 
Position auf der x- und der Spalte 4 der y-Achse entspricht. Dabei kann die Art des 
Punktes von den Daten abhängig gemacht werden oder Interaktionen definiert 
werden, etwa: Wenn der User mit der Maus über einen Punkt fährt, zeigte den Wert 
aus Spalte ı der entsprechenden Zeile des Datensatzes an derselben Position an. 

Bei der Ausführung des Codes wird die hochsprachliche Anweisung letzt- 
lich in sog. Maschinencode überführt. Dies sind einfache Anweisungen an den 
Mikroprozessor, bestimmte Speicherbereiche mit bestimmten Werten zu belegen. 

Nun lohnt es sich allerdings, genauer über die Funktionsweise eines Compu- 
ters nachzudenken, und zwar aus linguistischer Perspektive. Erhellend ist dabei 
die Geschichte, die Heilmann (2012) erzählt: Die Geschichte des Computers als 
Schreibmaschine. Es gibt drei Typen des Schreibens im Zusammenhang mit Com- 
putern: „das Schreiben für Computer (aber nicht an ihnen), das Schreiben für und 
an Computern, und das Schreiben an Computern (aber nicht für sie)“ (Heilmann 
2012: 8). Diese drei Typen stehen für drei unterschiedliche Epochen der Com- 
putergeschichte und drei unterschiedliche Verhältnisse zwischen Menschen und 
Computern. Zunächst, in den 1940er-Jahren, dienten Computer als Automaten. 
Ihnen wurde ein Set von Anweisungen eingeschrieben, das sie für beliebige Ein- 
gabewerte abarbeiteten, z. B. um Flugbahnen von Geschossen zu berechnen. Das 
Regelset wurde dabei handschriftlich auf Formblättern formuliert und dann in 
Form von Lochkarten eingegeben, in denen die gewünschten Speicherbereiche 
und Operationen codiert waren. Um diesen beschwerlichen Vorgang zu vereinfa- 
chen, fasste man häufig verwendete Anweisungen zu „Subroutinen“ zusammen, 
daraus entwickelten sich dann - verkürzt dargestellt - Programmiersprachen. In 
den 1960er-Jahren kam es dann zu einem entscheidenden Wandel: Der Anschluss 
von Schreibmaschinen oder Fernschreibern erlaubte „Interactive Computing“: 
Die Anweisungen konnten sozusagen live während der Ausführung eines Pro- 
gramms abgesetzt und so das Programm beeinflussen. „Diese neue Art des Pro- 
grammierens erforderte selbst passende Programme (sogenannte Editoren) und 
es stellte sich schnell heraus, dass Computer nicht nur zum Schreiben von Code 
taugten, sondern auch dem Verfassen von technischen Berichten, Artikeln und 
Dokumentationen dienlich sein konnten“ (Heilmann 2012: 8). 

Damit wurde Text offensichtlicher Gegenstand des Computers - textu- 
ell funktionierte er jedoch schon von Anfang an: Codieren bedeutet nämlich 
„anschreiben“ von Werten in Form eines Systems diskreter Zeichen als Verweise 
auf Speicherorte. Und kalkulieren bedeutet schriftliches Operieren mit diesen 
Zeichen, genau so, wie wir beispielsweise durch schriftliche Operationen auf 
Papier eine Multiplikation durch geschicktes, regelhaftes Schreiben durchfüh- 
ren können (Heilmann 2012: 42 in Rückführung auf Kittler 1989; Turing 1936). 
Der Computer diente also bereits von Anbeginn der Verarbeitung von Text 
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(Programmcode, Quelltext), operierte schriftlich und gab Text aus. Die schriftli- 
che Angabe der Zahl 452 in Form einer Lochkartenanweisung oder des in einer 
höheren Programmiersprache definierten Ausdrucks „x = 452“ ist für den Com- 
puter keine Zahl, sondern sind ein bestimmtes Set von Schaltzuständen von 
Transistoren. Der Ausdruck „x = 452“ wird semantisch entleert und rein syn- 
taktisch übersetzt in Schaltzustände (Heilmann 2012: 65) und unterscheidet sich 
nicht grundsätzlich von der Anweisung „v = Haus“ - beides sind Schaltzustände, 
mit denen, ausgelöst durch Text, operiert wird. 

Auffallend ist dabei die Ähnlichkeit zum Operieren mit einem Diagramm. Die 
manuelle Methode des „schriftlichen Rechnens“ zeigt bereits die Bedeutung des 
Diagrammatischen: Um mehrere Zahlen zu summieren, ordnet man sie als Liste 
untereinander stellenweise parallel rechtsbündig an, um dann Stelle für Stelle von 
rechts nach links summieren zu können. Die Positionierung der Zahlen im Raum 
ist dabei entscheidend und funktioniert, weil die Verschriftlichung der mathe- 
matisch abstrakten Zahlen in einer Systematik geschieht, die genau dies erlaubt. 
Ähnlich geschieht dies nun beim Computer, bei dem die abstrakten Zahlen nicht 
direkt verschriftlicht, sondern durch Schaltzustände als binäre Zahlen repräsen- 
tiert werden, die es aber dank ihrer Anordnung erlauben, genau so Operatio- 
nen durchzuführen, wie wir das beim schriftlichen Rechnen im Dezimalsystem 
gewohnt sind. Insofern argumentiere ich, dass auch das „Rechnen“ des Computers 
einen diagrammatischen Charakter hat, da dieses Rechnen mit Schaltzuständen 
im Binärsystem eine proportionale Homologie entwirft: Das Setting der Schaltzu- 
stände (dessen Materialität bei den ersten Rechnern noch viel deutlicher hervor- 
trat als heute) ist eine Art „Diagramm“, mit dem operiert wird, um im abstrakten 
mathematischen Raum eine Aufgabe zu lösen. In Anbetracht der Bedeutung des 
(schriftlichen) Codes, der diese Operation ermöglicht und der unzweifelhaft in 
seiner schriftlichen Form diagrammatische Mittel der Textformation nutzt (Lis- 
ten, Gliederungen, Hierarchien, Einrückungen etc., vgl. Steinseifer 2013), könnte 
der Computer als eine Art „diagrammatische Maschine“ aufgefasst werden. 

Hinzu kommt nun jedoch ein weiterer Aspekt: Mit der Wende hin zum Inter- 
active Computing und damit den neuen Eingabe- und Ausgabemedien (Maus, 
Bildschirm) wird der Computer als eine Art Plattform wahrgenommen, um völ- 
lig unterschiedliche Dinge tun zu können. Kay und Goldberg (1977) charakteris- 
ieren ihn als „metamedium“: 


„Although digital computers were originally designed to do 
arithmetic computation, the ability to simulate the details of 
any descriptive model means that the computer, viewed as a 
medium itself, can be all other media if the embedding and 
viewing methods are sufficiently well provided” (Kay und 
Goldberg 1977)“ 
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Damit können mit diesem Metamedium auch neue Medien erfunden werden, die 
es bisher gar nicht gab. Manovich ist der Auffassung, dass dies weitreichende 
Konsequenzen hatte, wie heute Software als Medium funktioniert: „Once compu- 
ters and programming were democratized enough, some of the most creative peo- 
ple of our time started to focus on creating these new structures and techniques 
rather than using the existing ones to make ‘content’“ (Manovich 2014: 81). 

Entscheidend dafür ist, dass der Computer als „diagrammatische Maschine“ 
mittels dreier Grundfunktionen - Codierung, Algorithmisierung und Forma- 
tierung (Heilmann 2012: 195) — Daten speichert, überträgt und verarbeitet. Die 
Codierung übersetzt Eingaben in Transistorzustände (ins Digitale), die Algorith- 
men operieren damit und die Formatierung macht die abstrakten Transistorzu- 
stände wieder sicht- und deutbar. Es gibt jedoch unendlich viele verschiedene 
Formatierungen, keine ist die „eigentliche“ Repräsentation der Transistorzu- 
stände. Und wieder ist es Text, Programmcode, der die Formatierung der Daten 
bestimmt - im Falle von Textdaten „ist die Formatierung von Texten eine Sache 
der Beschreibung von Text durch Text. Zum ersten Mal in der Geschichte des 
Schreibens bestimmen damit Texte über die ‘Materialität‘ der Schrift und nicht 
umgekehrt die Materialität der Schrift über die Gestalt von Texten“ (Heilmann 
2012: 239). 

Welchen Unterschied macht es, wenn Text über die Materialität der Schrift 
bestimmt und nicht die Materialität der Schrift (auf Papier gedruckt, in Holz 
gekerbt, mit Pinsel und Tusche gemalt) über die Gestalt von Texten? 

Zunächst ergibt sich ein ungeheures Potenzial an Transformationen von Text 
in unterschiedliche Formen (vgl. dazu Jägers „transkribierende Verfahrenslogik“, 
Jäger 2007). Bedeutender ist jedoch, dass diese Transformationsprozesse live und 
rekursiv ablaufen können. Solange der Text den Computer nicht verlässt (z. B. 
ausgedruckt wird), so lange kann mit Text auf ihn Einfluss ausgeübt werden. 
Und der Text kann sich selber rekursiv beeinflussen. 

Die „Visualisierung“ von Text (z. B. einer Frequenztabelle) ist also eine textu- 
ell definierte Formatierung dieses Textes (in Form von Instruktionen), eine von 
vielen möglichen Transformationen von Text in eine bestimmte diagrammati- 
sche Form. Das Operieren mit diesem Diagramm beschränkt sich deshalb nicht 
nur darauf, mit dem formatierten Diagramm zu interagieren (gemeinhin Interak- 
tivität genannt), sondern umfasst alle Transformationsprozesse, die im Computer 
möglich sind. Dies im Unterschied etwa zur Skizze auf Papier: Dort kann durch 
Zeichnen beispielsweise ein geometrischer Beweis geführt werden (vgl. oben 
Platons Menon-Beispiel), die materiellen Vorbedingungen, Papier, Stift, können 
jedoch nicht verändert werden. Bei der algorithmischen Visualisierungen jedoch 
wird selbst die Materialität operationabel — das Diagramm kann verschiedene 
Zustände der Materialität einnehmen: angezeigt auf einem Bildschirm, zweidi- 
mensional, [simuliert] dreidimensional etc. -, denn alles, was mit den digitalen 
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Daten im Computer passiert, sind diagrammatische Operationen. Der Computer 
ist eine diagrammatische Maschine. 

Wenn aus diagrammatischer Perspektive also deutlich gemacht wird, dass 
mit Diagrammen operiert werden kann, dann wird aus algorithmischer Perspek- 
tive klar, dass diese Operationalität umfassend ist und das Diagramm nicht bloß 
eines der „Bilder“ ist, die durch Transformationen entstanden sind, sondern alle 
Prozesse davor bereits diagrammatisch sind. Eine interaktive Visualisierung ist 
dann umfassend interaktiv, also operationabel im diagrammatischen Sinn, wenn 
sie alle Interaktionen mit den Daten zulässt, also wenn die digitale Aufberei- 
tung und algorithmische Beeinflussung der Daten genauso dazugehören wie die 
Beeinflussung der visuellen Darstellung. Es leuchtet natürlich ein, dass die Ope- 
rationalität sinnvollerweise nicht bis auf die Ebene des Maschinencodes reichen 
soll: Wir möchten uns nicht damit herumschlagen, wie die Zeichen im Com- 
puter digital repräsentiert und gegenseitig verrechnet werden. Die Operationen 
von Interesse finden auf einer viel höheren Ebene statt - es geht um die Frage, 
welcher Art die Indizes sind, mit denen die Daten gespeichert werden, welche 
Aspekte der Daten überhaupt gespeichert, welche Transformationen in der Folge 
möglich sind und in welchen Formen die Daten materialisiert werden. Wenn mit 
Daten diagrammatisch operiert werden soll, dann sollten diese Aspekte potenzi- 
ell kontrolliert werden können. 

Diese umfassende Kontrolle über das Digitale ist natürlich genau der Witz 
des Interactive Computings, also des Computers, wie wir ihn heute kennen. Die- 
ser Grundgedanke, mit dem Computer ein Metamedium bedienen zu können, 
wird allerdings durch Betriebssysteme, die möglichst viele potenzielle Interak- 
tionsmöglichkeiten hinter einer schönen Metapher verstecken, oder durch Soft- 
ware, die besonders benutzerfreundlich gestrickt ist und Interaktionen nur auf 
der Oberfläche zulässt, sabotiert. 

Muss man sich demnach als Geisteswissenschaftlerin oder -wissenschaftler 
bei der Nutzung von visuellen Analysemethoden mit Algorithmen auseinander- 
setzen? Unbedingt - und man sollte sich sogar mit Programmierkulturen ausei- 
nandersetzen, wie ich im Folgenden zeigen möchte. 


3.2 Topoi in der Programmierpraxis 


Es ist das Verdienst der Software Studies, auf die kulturelle Verfasstheit von Soft- 
ware aufmerksam gemacht zu haben (Fuller 2003; Mackenzie 2006). Und es ist 
einsichtig, dass die Gestaltung von Software eine kulturelle Praxis widerspie- 
gelt und gleichzeitig reproduziert: Die grafischen Benutzeroberflächen, die „eine 
ganze Maschine ihren Benutzern entziehen“ (Kittler 1993: 233), ermöglichen 
(und verunmöglichen) gewisse Praktiken, die Art, wie Wissen als verarbeitbare 
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Daten repräsentiert wird (Datenbanktypen), ist nicht unabhängig von kulturel- 
len Übereinkünften zu Wissenrepräsentationen (Manovich 2002; Dourish 2014). 

Auch auf der Ebene des Programmiercodes begegnen einem Hinweise über 
die Einbettung in kulturelle Praktiken auf Schritt und Tritt. Die Wahl einer Pro- 
grammiersprache „is the most important signaling behavior that a technology 
company can engage in“ (Ford 2015) und Ford nennt in seinem Text die über- 
spitzten Klischees, die in der Gemeinde der Programmierer/innen den unter- 
schiedlichen Programmiersprachen zugeschrieben werden: 


„Tell me that you program in Java, and I believe you to be either 
serious or boring. In Ruby, and you are interested in building 
things quickly. In Clojure, and I think you are smart but won- 
der if you ship. In Python, and I trust you implicitly. In PHP, 
and we sigh together. In C++ or C, and I nod humbly. In C#, 
and I smile and assume we have nothing in common. In For- 
tran, and I ask to see your security clearance. These languages 
contain entire civilizations.“ (Ford 2015, Hervorhebungen NB) 


Larry Wall, bezeichnenderweise Linguist, entwickelte eine der wichtigsten Pro- 
grammiersprachen: Perl. 1999 hielt er an der Konferenz „LinuxWorld“ eine Rede 
mit dem Titel ,Perl, the first postmodern computer language“ (Wall 1999). Auf 
sehr unterhaltsame Weise argumentiert Wall darin, dass Perl — und bis damals 
nur Perl — eine postmoderne Programmiersprache sei, im Gegensatz zu allen 
anderen, die in der Moderne stecken geblieben seien. Sie richte sich gegen vier 
die Informatik beherrschende Kulte: „spareness“, „originality“, „seriousness“ 
und „objectivity“. Perl ist eine quelloffene Sprache, die auf vielen Bruchstiicken 
der Betriebssysteme Unix und Linux beruht und versucht, Lösungsdogmen zu 
vermeiden und dafür Diversität zuzulassen: „Perl programming is unabashedly 
genre programming. It has conventions. It has culture. Perl was the first com- 
puter language whose culture was designed for diversity right along with the 
language“ (Wall 1999).° Walls Vortrag endet mit der These, dass es gerade die 


3 Um keine falschen Vorstellungen zu wecken: Trotz der Diversität und dem Perl- 
Mantra „There’s More Than One Way To Do It“ handelt es sich um eine rigide Pro- 
grammiersprache, die auf eine korrekte Verwendung ihrer Syntax angewiesen ist, 
um zu funktionieren. Im Vergleich zu anderen Programmiersprachen ist sie jedoch 
tatsächlich in vielen Aspekten wenig rigid; zu nennen ist beispielsweise, dass in Perl 
bei der Definition von Variablen nicht festgelegt werden muss, welche Inhaltstypen 
(Ganzzahlen, Kommazahlen, Buchstaben) darin vorkommen dürfen, sondern dies im 
entsprechenden Kontext automatisch geschieht. 
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Open-Source-Bewegung sei, die die oben genannten Kulte umstoße und so für 
einen kulturellen Wandel stehe. 

Walls „Kulte“, von Fuller (2003: 15) als „idealist tendencies in computing“ 
bezeichnet, drehen sich um einen starken Topos der Informatik: Die Gleichset- 
zung von Purismus von Zahlen und Schönheit. Die ganze Welt kann in Verhält- 
nisse von Zahlen aufgelöst werden und wird dann zu „purer Mathematik“. Je 
stärker sich diese Repräsentation durch Zahlen der puristischen Form annähern, 


„the more beautiful they become. There is an endpoint to this 
passage to beauty which is absolute beauty. Access to and 
understanding of this beauty is allowed only to those souls that 
are themselves beautiful“ (Fuller 2003: 15) 


Fuller kritisiert in der Folge Tendenzen, „ästhetisches Programmieren“ zu einem 
Dogma zu erklären, und warnt, dass solche Asthetiken zu sozialer Kontrolle füh- 
ren. Die „märchenhaften“ [„fabulatory“] Programmieransätze seien weit interes- 
santer, denn: 


„Numbers do not provide big answers, but rather opportunities 
to explore further manifold and synthetic possibilities-that is 
to say, they provide access to more figures“ (Fuller 2003: 16) 


Eng verwandt mit dem Purismus-Topos ist der Utilitarismus-Topos: „Computer 
programming seems to carry to an extreme an understanding of technology as 
a utilitarian tool predicated on a reframing of the world as a set of calculable 
quantities“ (Goffey 2014: 21). Dieser Topos ist nicht nur für Computertechnik 
wirkmächtig, sondern für Technologie generell, wie Böhme (2006) zeigt. Er 
nennt Karl Marx als prägend für diesen Topos, der wohl als einer der ersten eine 
„theory of technology“ entwickelte, „to have a conception of technology as a social 
enterprise“ (Böhme 2006: 55). Die Auffassung, dass Technologie dem „Reich der 
Notwendigkeit, nicht der Freiheit“ angehört und dazu dient, die Lebensbedingun- 
gen zu verbessern und somit letztlich der Reproduktion der Menschheit dient, 
verankerte sich in der Folge fest in unserem Verständnis (Böhme 2006: 55-56). 
Allerdings entspringt diese Auffassung von Technologie einer vorherrschenden 
Theorie von Technologie, nicht ihrer tatsächlichen Geschichte (Böhme 2006: 56). 

Die Geschichte nämlich brachte immer wieder Beispiele hervor für Techno- 
logien, die der Unterhaltung, dem Genuss, der Zerstreuung dienten, unabhängig 
jeglicher Nützlichkeitsziele. Böhme zeigt dies anhand der Technologien an den 
königlichen Höfen, Goffey nennt - neben den naheliegenden Computerspielen 
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- Beispiele aus der Computergeschichte: „The fascination with automata evinced 
within Department of Defense-funded research in artificial intelligence (AI) 
could perhaps be adduced as evidence that technologies of enjoyment were 
alive“ (Goffey 2014: 27). 

Entscheidend in unserem Kontext ist aber, dass durch das Metamedium Soft- 
ware eine Möglichkeit entstanden ist, mit Programmcode nicht nur Modelle der 
Welt, also „Aneignungen von Natur“ (Böhme 2006: 55) als zweckrationale Tools 
zu entwickeln, sondern Modelle virtueller Welten, die selber Produkte des Com- 
puters sind: „Strictly speaking, many of the things that software models are not 
real-world processes at all, they are things that are brought into being by com- 
putational technologies themselves“ (Goffey 2014: 34). Software weist also eine 
„demiurgische“ Qualität auf, sie kann etwas erzeugen, was vorher noch gar nicht 
existierte (Goffey 2014: 35). Dabei geht eine Praxis der Programmierung in ein 
Stück Software auf, der die Praxis der Codeerzeugung nicht mehr anzusehen ist: 


„clever tricks with assembly language, manipulating the side 
effects of an algorithm, devising workarounds, the smoke and 
mirrors of user interface design, and so on. The virtuoso smarts 
of programming practice that get software working can of 
course eventually be explained logically if the code compiles, 
the app works and users accept it. But in doing so, the process 
disappears into the product and the experimenting, the ‘brico- 
lage’ gets forgotten.“ (Goffey 2014: 35) 


Die semiotische Qualität von Programmiersprache wird damit deutlich: Pro- 
grammiersprachen sind Sets von Codes, die im Rahmen einer Praxis des Pro- 
grammierens in einem kulturellen Kontext neue Codes erzeugen, die wiederum 
als Zeichen gelesen werden. Software wird zu einer Äußerung: „software is a 
semiotic artefact, a set of operations in and on codes that implies the ongoing, 
repeated fact of enunciation“ (Goffey 2014: 36). Äußerungen sind aber nicht for- 
mallogisch vollständig erfassbar; „Enunciation brings the messiness of the world 
back and forces us to connect coding or programming with practice in more 
rigorous ways“ (Goffey 2014: 37). 


3.3 Coding Cultures 


Ein anschauliches Beispiel für die Einbettung von Programmierpraktiken in Kul- 
turen bieten Hacker-Szenen. Hacking wird in diesem Zusammenhang verstan- 
den als Tätigkeit, mit der nicht nur ein bestimmtes konstruktives Ziel erfüllt 
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wird, sondern einen Selbstzweck dient - im Fall des Computers beispielsweise 
das Programmieren des Programmierens willen; aus purer Freude (Levy 2010: 
10). Dabei spielen Ideale wie freier Zugang zu Wissen, Redefreiheit, Transpa- 
renz, Chancengleichheit, Öffentlichkeit und ein meritokratisches Verständnis 
eine wichtige Rolle. In der Geschichte des Computerhackings sind diese Werte 
stark mit einem Engagement für liberale Softwarelizenzen verbunden: Erzeugter 
Code gehört allen, jede und jeder darf ihn modifizieren (Coleman 2012: 3). Diese 
Ansicht stellt ein deutliches Gegengewicht zur kommerziellen Softwareindustrie 
dar; ein Kampf gegen die oben bereits von Wall erwähnten „Kulte“. 

Im Selbstverständnis der Hacker-Szenen spielen diese Werte, zunächst 
implizit, manchmal auch explizit ausformuliert in einer „Hacker-Ethik“, eine 
wichtige Rolle: 


„It was a philosophy of sharing, openness, decentralization, 
and getting your hands on machines at any cost to improve the 
machines and to improve the world. This Hacker Ethic is their 
gift to us: something with value even to those of us with no 
interest at all in computers“ (Levy 2010: IX) 


Diskussionen über diese ethischen Prinzipien und Formulierungen von Mani- 
festen begleiten die Geschichte des Hackens bis heute und werden teilweise 
heftiger diskutiert als technische Fragen (Coleman 2012: 18). Im Zeitalter der 
Start-ups des Silicon Valleys spricht Scott (2015) etwa von der gehackten, näm- 
lich „gentrifizierten“ Hacker-Kultur: Der kommerziellen Vereinnahmung dieser 
Kultur, die damit des rebellischen, kritischen Moments beraubt wird. 

Es liegt nahe zu untersuchen, welchen Einfluss Hacker-ethische Überle- 
gungen auf die tatsächliche Praxis des Hackens - angefangen beim Auseinan- 
dernehmen und Modifizieren von Hardware über das Verändern bestehender 
Programme und dem Programmieren neuer Programme bis zum Hacken von 
Sicherheitssystemen - haben. Levy und Coleman (Coleman 2012; Levy 2010) 
zeigen dies über unterschiedliche Ansätze; Coleman argumentiert beispiels- 
weise, wie sich in unterschiedlichen Varianten, die gleiche Funktion in der glei- 
chen Programmiersprache zu programmieren, Witz und Können gleichzeitig 
manifestiert, was natürlich nur für die Eingeweihten überhaupt ersichtlich ist 
(Coleman 2012: 93ff.). Anders als bei proprietärer Software bleibt bei quelloffe- 
nen, geteilten Programmen die gefundene Lösung, die „Bricolage“ (vgl. oben; 
Goffey 2014: 35), sichtbar. 

Die Computerwissenschaften waren quelloffenen und freien Software- 
Prinzipien grundsätzlich immer aufgeschlossen, zumal die ersten Hacker- 
Bewegungen an Universitäten entstanden sind (Levy 2010). In den Geistes- und 
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Sozialwissenschaften spielte und spielt jedoch proprietàre Software eine wich- 
tige Rolle, seien es Office-Programme zur Textproduktion, Datenverwaltung und 
Präsentation oder Statistikprogramme wie SPSS.* In jüngerer Zeit und vor allem 
im Bereich der Digital Humanities, der Korpus- und Computerlinguistik und 
der elektronischen Datenverarbeitung werden mit Programmiersprachen wie R, 
Perl, Python, Javascript etc. Techniken angewandt, die zu quelloffener und freier 
Software führen. Diese Programmiersprachen tragen ihre kulturelle Genese und 
Bedeutung in sich, auch wenn sie uninformiert und naiv eingesetzt werden - 
ihre Verwendung enthält eine Botschaft. 

Es finden sich im Netz viele Texte, die sich an programmiertechnische Laien 
richten und argumentieren, warum eine bestimmte Programmiersprache bes- 
ser ist als eine andere. Mit R lassen sich beispielsweise statistische Berechnun- 
gen und Visualisierungen erstellen, was teilweise natürlich auch mit dem viel 
bekannteren Office-Paket „Excel“ von Microsoft geht.” Paradigmatisch für die 
Nennung der Vorteile von R gegenüber Excel ist beispielsweise der Text von 
Isaac Petersen mit dem Titel „Why R is Better Than Excel for Fantasy Football 
(and most other) Data Analysis“.° Neben einigen technischen Argumenten wer- 
den auch Aspekte genannt, die eher ideologischer Natur sind, beispielsweise 
Quelloffenheit, Lauffähigkeit auf vielen Plattformen und die Möglichkeit, selber 
als Teil einer großen Community sich aktiv an der Weiterentwicklung zu betei- 
ligen. Ähnlich argumentiert ein Blogeintrag von Michael Milton, der zudem ein 
schönes Beispiel für den oben genannten Purismus-Topos darstellt: 


„Ihe visualizations you can create in R are much more sophis- 
ticated and much more nuanced. And, philosophically, you can 
tell that the visualization tools in R were created by people 
more interested in good thinking about data than about beauti- 
ful presentation. (The result, ironically, is a much more beauti- 
ful presentation, IMHO.)*’ 


4 Wobei es immer auch Gegenströmungen gab wie für die Textproduktion zum Beispiel 
die Verwendung des quelloffenen Satzsystemes LaTeX. 

5 Die Möglichkeiten im Bereich statistischer Analyse und Visualisierung, aber auch der 
Datenaufbereitung und insbesondere der Einbettung in andere Programmierroutinen 
sind bei R deutlich vielfältiger als bei einer Software wie Microsoft Excel. Trotzdem 
begnügen sich viele Wissenschaftler/innen mit Excel, ggf. auch in Arbeitsroutinen, 
die R-Nutzer/innen als sehr unelegant bezeichnen würden. 

6  http://fantasyfootballanalytics.net/2014/01/why-r-is-better-than-excel.html (25. August 
2015). 

7 http://www.michaelmilton.net/2010/01/26/when-to-use-excel-when-to-use-r/ (24. 
August 2015). 
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Wenn man sich als Novize oder Novizin auf R einlàsst, wird man automatisch 
seine Praxis ändern, sobald das erste Problem auftaucht und man nach einer 
Lösung sucht: Die Lösung findet sich nicht in einem singulären Handbuch, son- 
dern in zig Diskussionsschnipseln im Netz. Dabei wird es nicht nur eine Lösung 
geben, sondern viele verschiedene. Bald wird auch klar werden, wodurch sich 
die Lösungen unterscheiden: Unterschiedliche Codevarianten mit gleichem Aus- 
gang oder Abhängigkeit von bestimmten Zusatzpaketen mit Variationen der 
Ausgabe, wobei Argumente wie „Eleganz“, „Ästhetik“ oder „Sauberkeit“ für die 
eine oder andere Lösung auftauchen werden. 

Obwohl der Umgang mit Computern von einem starken Utilitarismus-Topos 
durchdrungen ist, zeigen die Ausführungen oben, dass Praktiken der Program- 
mierung und Softwarenutzung zutiefst kulturelle Praktiken sind. Die Verwen- 
dung von bestimmten Programmiersprachen und Programmen kommt einer 
kulturell bedeutsamen Botschaft gleich. Es macht einen Unterschied, ob die 
Visualisierung mit Excel oder R erstellt worden ist; die Entscheidung über das 
Programm oder die Sprache beeinflusst den Erkenntnisprozess genauso wie die 
Wahl der Daten, die Formulierung der Forschungsfrage oder die theoretische 
Grundierung der Analyse. 


4. Die wissenschaftsgeschichtliche Perspektive 


Eine „visuelle Linguistik“ muss sich zwingend mit wissenschaftsgeschichtlichen 
Theorien auseinandersetzen, um die Rolle der Visualisierungen in der Disziplin 
synchron als auch diachron zu verstehen. Neben Thomas S. Kuhns Buch Struktur 
wissenschaftlicher Revolutionen von 1962 (Kuhn 1996), das zweifellos eine bedeu- 
tende Stellung in der Wissenschaftsgeschichte einnimmt, sind die Arbeiten von 
Ludwik Fleck besonders gut anschlussfähig an die Desiderate einer visuellen 
Linguistik. Fleck hat in mehreren Arbeiten, ausgehend vom 1935 erschienenen 
Text Entstehung und Entwicklung einer wissenschaftlichen Tatsache (Fleck 1980), 
seine Konzepte Denkstil und Denkkollektiv entwickelt und plausibilisiert (Fleck 
1983, 2011): Die Angehörigen einer wissenschaftlichen (Teil-)Disziplin eint ein 
gemeinsamer „Denkstil“, der sie zu einem „Denkkollektiv“ macht (Fleck 2011: 
87). Das erschwert nicht nur das gegenseitige Verständnis über Denkkollektive 
hinweg, sondern es entsteht auch „eine spezifische Bereitschaft, dem Stil ent- 
sprechende Gestalten wahrzunehmen“ und es „verschwindet dagegen parallel 
das Vermögen, nicht stilgemäße Phänomene wahrzunehmen“ (Fleck 1983: 107). 
Ein Denkkollektiv ist also blind gegenüber Evidenzen, die nicht zum eigenen 
Denkstil passen. 

Auf die Kommunikation innerhalb eines Denkkollektivs richtet Fleck 
ein besonderes Augenmerk. Erkenntnisse und Wissen werden innerhalb des 
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Kollektivs gemäß dem herrschenden Denkstil kommuniziert und verändern 
sich dadurch laufend, festigen aber gleichzeitig den Denkstil innerhalb des 
Kollektivs. 

Flecks Beobachtungen zur Wirkmächtigkeit von Denkstilen in der Wissen- 
schaft sind auch in der Linguistik — mit einigen Jahrzehnten Verzögerung - auf 
fruchtbaren Boden gefallen. Dabei stößt der Stilbegriff auf reges Interesse: Denn 
„das, was wir mit Denkstil meinen und am Denkstil beobachten, [muss sich] ja 
immer sprachlich materialisiert haben [...], um wahrnehmbar, beobachtbar zu 
sein“ (Fix 2011: 1; Möller 2007). Fleck nennt Mittel, die dazu dienen, einen Denk- 
stil zu pflegen: „Ich möchte nur noch zwei Mittel erwähnen, über die der wissen- 
schaftliche Denkstil verfügt, um seinen Produkten den Charakter einer Sache zu 
verleihen. Eines von ihnen sind technische Termini [...]. Das zweite Mittel ist das 
wissenschaftliche Gerät [...]. Wer es versteht, in ein Fernrohr zu schauen und an 
den Saturn zu denken, benutzt damit allein bereits einen bestimmten abgegrenz- 
ten Denkstil* (Fleck 1983: 121f.). Ulla Fix hat plausibel gezeigt, wie anschluss- 
fähig Flecks Überlegungen zur Rolle des Sprachgebrauchs zur Ausbildung von 
Denkstilen an Konzepte der Linguistik sind (Fix 2011). Sie nennt Kategorien wie 
Stil, Text, Wort, Varietät und Metapher als sprachliche Elemente des Wahrnehm- 
baren eines Denkstils. 

Doch gehören Diagramme nicht ebenfalls zu den Mitteln, die wissenschaft- 
liche Denkstile prägen? Und gehören sie zu den „technischen Termini“ oder 
zum „wissenschaftlichen Gerät“? Ich möchte argumentieren, dass Diagramme 
eine eigenartige Doppelfunktion zwischen Sprache und Gerät einnehmen - und 
gerade deshalb besonders wirkmächtig sind. 


4.1 Visualisierungen als Zeichen 


Zweifellos sind Visualisierungen komplexe Zeichen, die in einem ikonischen 
Verhältnis zum Referenten stehen. Sie weisen damit semiotische Qualitäten auf 
und funktionieren in der wissenschaftlichen Praxis genauso als kommunikatives 
Mittel wie sprachliche Zeichen, können also, z. B. Bühler folgend, darstellen, 
ausdrücken und appellieren (Bühler 1934). Mit Fleck gedacht können Visuali- 
sierungen dank dieser Funktionen innerhalb eines Denkkollektivs „den Produk- 
ten den Charakter einer Sache“ verleihen. Dies wird sofort evident, wenn man 
sich vergegenwärtigt, in welchen wissenschaftlichen Disziplinen gewisse Typen 
von Visualisierungen üblich, zwingend notwendig oder geradezu verpönt sind. 
Jedes Denkkollektiv pflegt eine Praxis des Visualisierens oder Nicht-Visualisie- 
rens, angefangen bei leichten Formen der Visualisierung wie textstrukturieren- 
den Merkmalen (Spiegelpunkte, Listen, Tabellen) über übliche und kanonisierte 
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Formen (Balkendiagramme, Streudiagramme, Karten etc.) bis hin zu komplexen 
Formen (interaktive Visualisierungen).* 

In der Linguistik entwickelten sich in bestimmten Teildisziplinen mehr oder 
weniger stabile Formen, etwa in der Dialektologie und Varietätenlinguistik, wo 
Karten eine wichtige Rolle einnehmen und sich bestimmte Praktiken durchge- 
setzt haben oder zumindest das Ziel der Standardisierung definiert wird. So for- 
muliert etwa Naumann (1982) in der Dialektkartografie das folgende Desiderat: 


„Die Methodik wird [...] immer deutlicher einen Rahmen für 
große Teile der Arbeitsschritte geben und damit dem Erfin- 
dungsreichtum Grenzen setzen, soweit das die Kommunizier- 
barkeit von Kartierung und Karte verbessert.‘ (Naumann 1982: 
687) 


Es werde zwar weiterhin ein „sozusagen künstlerischer Anteil“ notwendig sein, 
wobei Naumann darunter alle Entscheidungen versteht, die nicht einer Syste- 
matik folgen (Naumann 1982: 668). Auf das „Künstlerische“, offensichtlich ein 
eigentlich in der Wissenschaft unerwünschter Aspekt, müsste noch zurückge- 
kommen werden (vgl. aber die Beiträge von Pflaeging und Lauersdorf in diesem 
Band); der Wunsch einer Systematisierung von Visualisierungspraktiken, der in 
vielen wissenschaftlichen Disziplinen zu beobachten ist, zeugt natürlich davon, 
dass Visualisierung dort nicht als Ausschmückung, sondern als Arbeitsinstru- 
ment angesehen wird. Gleichzeitig wird daran sichtbar, wie wichtig definierte 
Visualisierungspraktiken für die Durchsetzung von Denkstilen in einem Denk- 
kollektiv sind: Wer den kanonisierten Praktiken nicht folgt, muss eine überzeu- 
gende Innovation anbieten oder aber riskiert seine disziplinäre Glaubwürdigkeit. 

Bemerkenswert beim Stellenwert von Visualisierungen in unterschiedlichen 
Disziplinen (und auch in historischer Perspektive) sind die Differenzen der Ein- 
schätzung darüber, wie akkurat Visualisierungen einen Gegenstand wiederge- 
ben können und welchen Zwecken sie dienen. In stark empirisch ausgerichteten 
Disziplinen, z. B. der Korpuslinguistik, spielen Visualisierungen eine wichtige 
Rolle, die die Eigenschaften von Datenmengen wiedergeben sollen. Eine der 
einfachsten Formen ist dabei das Balkendiagramm, eine professionellere Pra- 
xis verwendet aber eine breite Palette von Streudiagrammen mit zusätzlichen 


8 Karin Knorr Cetina (2001) etwa zeigt am Beispiel der Hochenergiephysik die Bedeu- 
tung von Visualisierungen für die Disziplin, da sie die Grundlage der gesamten wis- 
senschaftlichen Kommunikation überhaupt bilden. Sie prägte dafür den Begriff der 
„Viskurse“. 
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Indikatoren, die die Verteilung von Datenpunkten möglichst exakt beschreiben 
sollen. Das Vertrauen in die Visualisierung ist dabei so groß, dass sie oft als erstes 
Mittel der Datenanalyse empfohlen wird und sich daran dann statistische Tests 
anschließen, um den über die Visualisierung gewonnenen Eindruck zu prüfen 
(Gries 2008). Dies ist akzeptiert, da die Visualisierung auf wohldefinierten und 
in der Statistik akzeptierten Mess- und Testverfahren beruht und der Transfer 
der daraus entstandenen Werte in grafische Elemente (sog. „Mapping“) ebenfalls 
systematisiert und standardisiert ist. 

Ebenso stark von Denkstilen durchsetzt sind die Rollen, die in den unter- 
schiedlichen Disziplinen Visualisierungen zugedacht werden. Verfahren des 
Data Minings, die visuelle Analysemethoden nutzen, sind beispielsweise stark 
von einem Utilitarismus-Topos durchdrungen, bei dem davon ausgegangen wird, 
dass die Daten eine Wahrheit (eine „ground truth“, einen „Schatz“) enthalten, der 
gefunden werden kann (Bubenhofer 2016; Bubenhofer u. a. 2018; vgl. auch den 
Beitrag von Barbaresi in diesem Band, S. 167). Die Rolle des Tools ist damit klar 
definiert: diesen Schatz zu heben. Damit kann ein visuelles Analyseinstrument 
anhand eines „Goldstandards“ evaluiert und seine Güte ausgedrückt werden. In 
geisteswissenschaftlichen Kontexten herrscht allerdings oft Skepsis gegenüber 
einer solchen Sicht, da eher von einem Gewebe von Theorie, Methodologie und 
deren Operationalisierung und Implementierung, bei dem die/der Forscher/in 
bedeutender Bestandteil ist, ausgegangen wird. Aus dieser Sicht sind deshalb 
visuelle Analysemethoden eher nicht effektive Analysetools, die den „Informati- 
onsüberfluss“ zähmen sollen, sondern eher eine Möglichkeit, reiche Nahrung für 
Deutungen zu bieten, etwa im Sinne einer „dichten Beschreibung“ (Geertz 1987). 


4.2 Visualisierungen als wissenschaftliches Gerät 


Genau so, wie Visualisierungen als Zeichen rhetorische Funktionen einneh- 
men, dienen sie in der Forschung oft als Instrument. Dies gilt insbesondere für 
explorative Visualisierungen: Mit den Daten kann erst gearbeitet werden, wenn 
diejenigen Aspekte davon, die von Interesse sind, in grafische Formen über- 
führt wurden. Die Operationen im visuellen Ensemble der grafischen Formen 
führen dann im besten Fall zu neuen Erkenntnissen, analog der Arbeit mit dem 
Mikroskop. 

Im Fall von algorithmisch erstellen Visualisierungen sind nach den Aus- 
führungen oben zu den diagrammatischen und algorithmischen Perspektiven 
zwei Aspekte wichtig: 1) Zum wissenschaftlichen Gerät gehört nicht nur die 
Visualisierung selber, sondern der Computer insgesamt als diagrammatische 
Maschine. 2) Programmcode, Algorithmen und Software als Bestandteile des 
wissenschaftlichen Geräts sind kulturell geprägt und machen das Gerät dadurch 
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zu einem besonders wirkmächtigen Mittel wissenschaftlicher Denkstile. Denn 
das Metamedium Computer ist fluider und unbestimmter als etwa ein Mikro- 
skop und damit weit stärker kulturellen Praktiken unterworfen, die allerdings 
häufig den Anwenderinnen und Anwendern von Visualisierungssoftware nicht 
bewusst sind. 


4.3 Kanons und Kulturen 


Visualisierungen sind also Ausdruck von wissenschaftlichen Denkstilen. Die 
Visualisierungspraxis eines Denkkollektivs zeigt sich daran, ob Visualisierungen 
in der jeweiligen Disziplin akzeptiert sind, welche Typen und welche Ausprä- 
gungen üblich sind und zu welchen Zwecken sie verwendet werden. Für jede 
Disziplin wird in bestimmten Zeiträumen ein bestimmter Bildstil erkennbar sein: 
„Aus dem Abstand von hundert Jahren wird man die Darstellungen der Nanofor- 
schung auf einen Blick auf zwei oder drei Jahre genau datieren können; in Bezug 
auf die fraktale Mathematik gilt das gleiche“ (Bredekamp u. a. 2008: 41f.) Ebenso 
existieren in jeder Disziplin „ikonisierte Diagramme“ (vgl. Lauersdorf in diesem 
Band S. 91), die alternative Visualisierungen behindern. 

Insbesondere bei algorithmischen Visualisierungen müssen dabei auch die 
programmiertechnischen und algorithmischen Grundlagen mitbedacht werden. 
Visualisierungen, die mit der Javascript-Bibliothek D3 (Bostock u. a. 2011) erstellt 
wurden, ähnelt sich vom Typus her, obwohl diese Bibliothek eine enorme Viel- 
falt an neuen Visualisierungsformen von Daten auslöste. Die Designprinzipien 
der Bibliothek sind in eine bestimmte Softwarekultur eingebettet (Open Source, 
browserbasiert, leicht nutzbar, modular etc.), die u. a. vom Erfinder selber auch 
explizit verbalisiert wird, etwa im Rahmen der neuen Version 4 der Bibliothek: 
„Programming interfaces are user interfaces. Or, to put it another way: Program- 
mers are people, too“ (Bostock 2016). 

Um aber Innovation im Bereich wissenschaftlicher Visualisierung zu ermög- 
lichen, muss dieser Kanon disziplinärer Visualisierungspraktiken immer wieder 
hintergangen werden. Die andere, nicht-kanonisierte Visualisierung ist notwen- 
dig, um Innovation zu ermöglichen. Pflaeging (in diesem Band S. 123) plädiert 
beispielsweise dafür, gezielt visualisierte Metaphern hinzuzuziehen, um lingu- 
istische Theorien zu erklären und so durch eine „Ästhetisierung von Linguistik- 
vermittlung [...] rezipientenseitig zu einer verlängerten und bewussteren Wahr- 
nehmung der musterbrechenden Elemente“ zu gelangen. Relativ pragmatisch 
machen Keim et al. (2006) auf dieses Problem aufmerksam: „User acceptability is 
a further challenge; many novel visualization techniques have been presented, 
yet their widespread deployment has not taken place, primarily due to the users’ 
refusal to change their working routines.“ Als Rezept zur Akzeptanzförderung 


46 — Noah Bubenhofer 


wird schlicht und einfach vorgeschlagen, den Benutzerinnen und Benutzern die 
Vorteile der Visualisierung zu erklären - durchaus ein gangbarer Weg, doch 
dürfte das alleine nicht reichen, solange der jeweilige Denkstil diese Form noch 
nicht akzeptiert. 


4.4 Listen und Partituren 


Im letzten Teil dieses Beitrags möchte ich den Blick nochmals auf die Visuali- 
sierungspraxis in der Linguistik lenken. Neben Karten, Graphen/Netzen (etwa 
zur Darstellung von Kollokationen) oder Bäumen (für syntaktische Strukturen, 
Sprachfamilien etc.) und Vektoren (visualisiert als Werte in einem Koordinaten- 
system) gibt es in den Sprachwissenschaften zwei unauffälligere, aber deswegen 
nicht weniger wirkmächtige Methoden, die ich unter den Schlagworten „Lis- 
ten“ und „Partituren“ fassen möchte (vgl. zu typischen Visualisierungsformen 
in der Linguistik auch den Beitrag von Perkuhn und Kupietz in diesem Band, S. 
63). An beiden folgenden Beispielen zu Listen und Partituren kann gleichzei- 
tig diskutiert werden, wie sich durch die Transformation oder Formatierung der 
Sprachdaten in diese Formen der Analysegegenstand verändert. 


BEREEEEEERE 
> 


Abb. 2: Fünf in der Linguistik häufig anzutreffende Visualisierungstypen: Liste, Karte, 
Partitur, Vektoren, Graph/Netz (gerichtet: Baum; ungerichtet: Netz). 
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Aus diagrammatischer Perspektive ist klar, dass jegliche Strukturierung von 
Text, beispielsweise in Form von Spiegelpunkten, Aufzählungen o. À. bereits 
diagrammatischen Charakter hat (Steinseifer 2o13). Im linguistischen Kontext 
sind zwei Beispiele naheliegend, bei denen Sprache umstrukturiert wird, um sie 
analysierbar zu machen: 1) In der Korpuslinguistik ist vor allem die ,Key Word 
in Context“-Darstellung - KWiC - bekannt. Sie wird verwendet, um eine Ergeb- 
nismenge von Treffern übersichtlich darzustellen. Diese sehr alte und prinzipiell 
simple Form eines Index widerspiegelt eine völlig neue Lektüretechnik. 2) In 
der Gesprächsanalyse dienen verschiedene Notationssysteme, darunter insbe- 
sondere die Transkription in die sog. Partiturschreibweise dazu, gesprochene 
Sprache in ihrer Flüchtigkeit und Gleichzeitigkeit analysierbar zu machen. Beide 
Beispiele lohnen eine Analyse aus diagrammatischer Sicht. 


E a | 


Abb. 3: Das Bücherrad von Agostino Ramelli (Ramelli 1588: 317). 


1588 erfindet Agostino Ramelli ein Bücherrad (Ramelli 1588: 317): Eine hölzerne 
Konstruktion, auf der gleichzeitig mehrere Bücher aufgeschlagen Platz finden 
und vor der die Leserin/der Leser Platz findet und bequem am Rad drehen kann, 
um jederzeit zum nächsten Buch wechseln zu können (Siegel 2009: 28). Zwar 
blieb die Erfindung ein Plan auf Papier, sie widerspiegelt jedoch einen Paradig- 
menwechsel humanistischer Lektüretechniken in der Frühen Neuzeit: „Anstelle 
kontemplativer Versenkung in einen einzigen, durch die Buchdeckel begrenzten 
Text, bedeutet Lektüre hier einen stetigen Akt des aufeinander Beziehens von 
ursprünglich distinkten Sinneinheiten“ (Siegel 2009: 33). Dafür werden neue 
Methoden notwendig, etwa die Glossierung am Seitenrand oder das Exzerpieren 
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und die Verwaltung dieser Exzerpte, z. B. in Form des „Liber excerptorum“ von 
Placcius, bei dem Zettel flexibel in einem Buch eingesetzt werden können (Plac- 
cius 1689: 68ff.), oder dem „Scrinium litteratum“, dem Karteikasten, der noch 
größere Freiheit beim Reorganisieren der Daten erlaubt (Placcius 1689: 121ff.). 
In der gleichen Zeit entstehen die großen Enzyklopädien zur Systematisierung 
des Wissens und erweitern damit Lektüre zu einem komplexen Akt, „der im 
Ganzen die Struktur des gedruckten Fließtextes zu Formularen erweitert, deren 
hoher Anspruch eine systematische Ordnung der gelehrten Überlieferung ist“ 
(Siegel 2009: 47). 

Die Nähe dieser Lektüretechniken zur Korpuslinguistik und dem modernen 
Data Mining ist unübersehbar: „Die [...] praktisch geübte und methodisch reflek- 
tierte Isolation einzelner Textpartien zum locus [communis] bedeutet, die Vielfalt 
tradierter Texte als einen riesenhaften Speicher zu behandeln, der in sich die 
Summe des verfügbaren Wissens inkorporiert“ (Siegel 2009: 37). Die Konzep- 
tualisierung der Texte als Speicher geht mit einem neuen Zugriff darauf einher. 
Genauso bricht die Suche in einem Textkorpus nach sprachlichen Einheiten und 
die Repräsentation der Ergebnisse als Konkordanz - also die Isolation der Text- 
stellen aus dem jeweiligen Text - mit dem traditionellen hermeneutischen Lek- 
türeerlebnis. Gleichzeitig stellt die Konkordanz aber einen eigenen „locus“ dar, 
ist also von eigenem Aussagewert und ist die Voraussetzung dafür, daraus eine 
emergente Struktur ableiten zu können. 

Natürlich sind auch Unterschiede zwischen Korpuslinguistik/Data Mining 
und den neuen Lektüreformen in der Frühen Neuzeit sichtbar, was in der digi- 
talen Form der Daten begründet liegt. Das betrifft sowohl die Möglichkeiten der 
Erstellung der Indizes als auch deren weitere Verarbeitung, bei der in der digi- 
talen Welt die menschliche Leserin /der menschliche Leser an verschiedenen 
Stellen durch Algorithmen ersetzt werden kann. 

Die KWiC-Liste wird in der Linguistik (und benachbarten Disziplinen) 
zuweilen durchaus als Provokation wahrgenommen. Dies ist beispielsweise im 
Kontext der Diskurslinguistik sichtbar, wo keine Einigkeit über den Nutzen des 
korpuslinguistischen Zugangs herrscht, gerade auch, weil die bekannteste kor- 
puslinguistische Präsentationsform von Ergebnissen, die Liste von Textstellen, 
die Texteinheit aufbricht. So wird argumentiert, die Diskurslinguistik arbeite 
mit dem Begriff des einheitlichen Textes, die Korpuslinguistik dagegen mit 
Textfragmenten (Leech 2000: 678; Spitzmüller und Warnke 2011: 32). Anderer- 
seits kann der korpuslinguistische Zugang auch gerade als passend angesehen 
werden, um textübergreifende Aussagensysteme zu untersuchen (Bubenhofer 
und Scharloth 2013: 247). Es handelt sich um eine Art „maschinengeleitete Lese- 
technik“ (Scholz und Mattissek 2014: 87): 
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„Die dekontextualisierte Darstellung erlaubt es den Forschen- 
den, frei vom ‚hermeneutischen Reflex‘, der die Lektüre von 
Texten und Textpassagen bestimmt, kreativ Ideen zu mögli- 
chen diskursiven Zusammenhängen einzelner Korpusteile zu 
entwickeln, die bei einer subjektiven Lektüre möglicherweise 
verdeckt blieben.“ (Scholz und Mattissek 2014: 87) 


Diese dekontextualisierte Darstellung ist in der Korpuslinguistik, wie erwähnt, 
zwingendes Ergebnis eines quantitativen Zugangs, der eine Lektüre des Einzel- 
textes je nach Ansicht ersetzen, ergänzen und/oder aber gerade nicht ersetzen 
kann. Die KWiC-Darstellungen (und viele weitere, avanciertere synthetisierende 
Darstellungen von quantitativen Ergebnissen) werden damit zum Symbol einer 
am Sprachgebrauch orientierten Sicht auf Diskurse und so im größeren Kontext 
zum Gegenstand lebhafter Diskussionen über die verschiedenen Spielarten von 
Diskursanalyse (Angermüller 2014; Meier u. a. 2014; Niehr 2015). 

Ich meine damit zeigen zu können, wie stark eine diagrammatische Form - 
die Liste als Konkordanz - die Lektüre von Text beeinflusst und zu einem neuen 
Verständnis von Sprache führt: Ein Verständnis, das geprägt ist vom Interesse an 
der sprachlichen Form, an repetitiven Segmenten, Mustern und ihrer soziokultu- 
rellen Deutung - an Oberfläche und Performanz (Feilke und Linke 2008). 

Eine ähnliche Verschränkung von diagrammatischer Form und neuer Sicht 
auf Sprache ist in der Analyse gesprochener Sprache zu beobachten. Im Rahmen 
der Dialektologie und der sprachtypologischen Forschung war die Transkrip- 
tion von Äußerungen gesprochener Sprache schon länger ein Thema (Redder 
2001), doch erst mit Arbeiten wie jenen von Sacks et al. (1974) entsteht eine neue 
Perspektive, die auch radikal neue Darstellungsformen bedingt: Die Keimzelle 
dieser Perspektive liegt wahrscheinlich in der Fokussierung auf den „turn“: Eine 
Einheit, die Gespräche strukturiert und organisiert und sich nicht mit den klas- 
sischen grammatischen Kategorien geschriebener Sprache fassen lässt. Damit 
einher gehen Mechanismen des Sprecherwechsels, bei denen sich „turns“ nach- 
einander ablösen, aber oft sich eben auch überlappen. Die Sequenzialität sprach- 
licher Äußerungen, die bei der geschriebenen Sprache die Normalität ist, wird in 
der gesprochenen Sprache um die Dimension der Gleichzeitigkeit ergänzt. 

Dies bedingt neue diagrammatische Formen der Transkription, mit der die 
Gleichzeitigkeit mehrerer „turns“ dargestellt werden kann. Es etablierten sich 
verschiedene Lösungen dafür, besonders erfolgreich ist jedoch die Partiturschreib- 
weise (vgl. Abb. 4). Dabei werden die verschiedenen Sprecher/innen als „Stimmen“ 
eines Orchesters aufgefasst und die in der Musik übliche Notation der Partitur 
übernommen, bei der jede Stimme eine eigene Zeile einnimmt und sich überein- 
ander angeordnet die Gleich- und Ungleichzeitigkeit der verschiedenen Stimmen 
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[142] 

f2 jahre de fakto;=und da drüber brauchen wir jetzt gar ned lang diskutieren- 
m2 ((klopft auf pult, senkt blick, 
R ( ) 

[143] 


f2 (.) weil wenn die komission in ihrer WUNderbaren vielfalt nach 6 jahren beschliesst, dass 
m2 bläst luft aus, blickt sie wieder an)) 


f2 sie alle noch VI:EL lieber und noch VI:EL billiger bei uns durchfahren 
m1 <<all>kann sie gar nicht> 

m2 hehehe 

? (aso) 


f2 möchten, (.) ä:h dann sind WIR der billige jakob? (.) 
mi ((grinst)) 
m2 frau lichtenberger ich schätze sie. 


f2 <<wehrt äusserungen gestisch ab>na bitte do (redens) mer da jetzt nit rein?> dann (-) sein 
m2 machen wir (kei innerpolitisches parkett da); ((grinst, senkt 


f2 mir der billige jakob von OSCHterreich? (-) wir haben nicht einmal eine geringfügige 
m2 blick, lehnt sich zurück)) 


Abb. 4: Beispiel für ein Transkript in Partiturschreibweise (aus: Stocker u. a. 2004). 


sofort überblicken lässt. Transkriptionsstandards wie GAT (Selting u. a. 1998) oder 
HIAT (Ehlich und Rehbein 1976, 1979; Rehbein u. a. 2004) definieren die Details 
der Umsetzung. 

Es lohnt sich, einen Blick in die Geschichte der Notation von Musik und dort 
insbesondere der Partitur zu werfen, um die diagrammatische Innovation die- 
ser Schreibweise, gleichzeitig aber auch die funktionalen Differenzen zwischen 
der Musikpartitur und der Partiturschreibweise von Gesprächstranskripten her- 
auszuarbeiten. Bei der Notation polyphoner Musik muss unterschieden werden 
zwischen Ensemble-Musik, bei der mehrere Personen gleichzeitig spielen, und 
Solo-Musik, bei der eine Person auf dem gleichen Instrument gleichzeitig meh- 
rere Stimmen spielt, beispielsweise die linke und rechte Hand beim Klavierspiel 
(Apel 1961: XXV; Sachs und Röder 1989). Bereits aus dem 9. Jahrhundert sind 
Notationen bekannt, die als Vorläufer von Partituren angesehen werden, so z. B. 
in der Musica Enchiriadis, einer Art Handbuch, das dazu dienen sollte, das Singen 
von Gregorianischen Chorälen zu unterrichten (vgl. Abb. 5°). Dort ergab sich die 
Notwendigkeit, die sich hauptsächlich in Quart- oder Quintabständen parallel 
bewegenden Stimmen untereinander, aber im gleichen Notensystem, abzubilden. 


9 Die gesamte Handschrift ist bei der Staatsbibliothek Bamberg digital einsehbar: http:// 
bsbsbb.bsb.Irz.de/-db/0000/sbb00000078/images/ (letzter Zugriff: 20. Januar 2018). 
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Abb. 5: Beispiel für eine partiturartige Notation aus der Musica Enchiriadis; Handschrift, 
Kopie Msc.Var.1, fol. 51r, Scolica enchiriadis de arte musica - u. a. musiktheoretische 
Texte. Werden (?), um 1000. Staatsbibliothek Bamberg.Foto: Gerald Raab. 
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Damit weist das Notationssystem zwei Achsen auf: Die vertikale Achse gibt das 
Tonsystem in der sog. Dasia-Notation (später Tonbuchstaben) wieder, während 
in der horizontalen der Verlauf der Melodien notiert war (Sachs und Röder 1989). 
Mit der Notation war ein didaktischer Nutzen verbunden, um durch die „Ver- 
bindung von Hören und Sehen“ (Sachs und Röder 1989) die Intervall-Beziige 
zwischen den Stimmen deutlich zu machen. 

Allen Partitur-ähnlichen Notationen bis ins 15. Jahrhundert ist gemein, dass 
eine exakte vertikale Anordnung nicht angestrebt wurde, da sich erst eine sys- 
tematische Notation von Tonlängen, Taktstrichen und konventionalisierter ver- 
tikaler Anordnung entwickeln musste. Auch danach schienen die ersten Parti- 
turen, die nun für jede Stimme ein eigenes Notensystem mit entsprechendem 
Schlüssel nennen (etwa 1537 bei Lampadius, vgl. Sachs und Röder 1989: 1431), 
eine nebengeordnete Rolle zu spielen: Sie dienten als Vorlage, um daraus die Ein- 
zelstimmen zu extrahieren, wobei bei der Aufführung eine dieser Einzelstimmen 
auch als Dirigiergrundlage verwendet wurde. Im Verlauf des 16. Jahrhunderts 
etabliert sich die Partitur allmählich, da sie als Aufzeichnungssystem diente, um 
„ein (fremdes) Werk genauer prüfen zu können“, und dazu, aus „aufführungs- 
praktischen Zwecken [...] ein Tasteninstrument, in der Regel die Orgel, als Stütze 
heranzuziehen“ und die dafür nötige Notengrundlage als (Teil-)Partitur zu erstel- 
len (Sachs und Röder 1989: 1429). 

Deutlich ist also auch bei musikalischen Partituren, dass sie zunächst dazu 
dienten, die Polyphonie von Musik sichtbar zu machen, weniger als Vorlage für 
die musikalische Wiedergabe. Die Erfindung der Partiturschreibweise ermög- 
licht einen neuen Blick auf den bereits bekannten Gegenstand (das Lied, das 
Musikstück, das Gespräch), indem die zeitliche Interaktion der Stimmen bzw. 
Sprecher/innen hervortritt. Die Partitur visualisiert die Gleichzeitigkeit von 
Gleichwertigem - im Unterschied zu Glossen oder Marginalien, die zwar auch 
ein diagrammatisches Ausdrucksmittel von Gleichzeitigkeit sind, doch deutlich 
priorisieren, eben: marginalisieren. 

Trotzdem sind auch Differenzen zwischen Musik- und Gesprächspartitur 
ersichtlich: Die Musikpartitur hat zwar eine ähnliche ordnende Funktion von 
Stimmen wie Gesprächspartituren, nutzt aber zusätzlich mit dem Notationssys- 
tem von Tonhöhen, -längen und Rhythmen ein System, das sich in die Parti- 
turschreibweise problemlos integriert: Die Viertelnote der ersten Stimme wird, 
ergänzt mit Freiraum, denselben Platz einnehmen wie die gleichzeitig spielenden 
zwei Achtelnoten der zweiten Stimme - die Taktmarkierungen sind eine zusätz- 
liche Hilfe, um diesen Effekt zu erreichen. Bei Gesprächstranskripten hingegen 
entspricht die orthografische und typografische Umsetzung des gesprochenen 
Lautes nicht dessen Länge; visuell kann deshalb ein „turn“ der einen Spreche- 
rin denjenigen des zweiten Sprechers überdauern, ohne es real ebenso gemacht 
zu haben (Redder 2001: 1048). Moderne Transkriptionsprogramme begegnen 
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diesem Problem durch die Integration einer grafischen Umsetzung des Frequenz- 
spektrums in Form eines Spektrogramms. 

Den beiden Anwendungsbereichen gleich ist wiederum die Einsicht, dass die 
Notationssysteme nicht reichen, den Gegenstand, das Gespràch bzw. die Musik, 
komplett zu erfassen (vgl. für die Musik z. B. Schneider 1987: 317), sie aber trotz- 
dem unverzichtbar sind, um die Flüchtigkeit des Gegenstands zu fixieren und die 
Komplexität handhabbar zu machen. 

Ähnlich wie die Liste erlaubte die Übernahme der Partiturschreibweise aus 
der Musik in die Linguistik einen neuen Blick auf Sprache - oder schuf damit 
einen neuen Analysegegenstand: Das Gespräch. Doch nicht nur in den engen 
Grenzen der Gesprächslinguistik wirkte diese Darstellungsweise innovativ: Das 
Prinzip der Annotation von Textdaten beruht in der Darstellung ebenfalls auf 
dem Partiturprinzip, da die Gleichzeitigkeit von Text und Annotation(en) in der 
ganzen Komplexität dargestellt werden muss (siehe zu den Schwierigkeiten sol- 
cher Darstellungen den Beitrag von Burghardt in diesem Band, S. 315). Bereits 
die in der Korpuslinguistik übliche Darstellung eines annotierten Textes in einer 
Mischung aus XML-Auszeichnung und vertikalisierter Spaltendarstellung folgt 
einer (vertikalen) Partiturschreibweise (vgl. Abb. 6). 


5. Fazit 


Diagrammatische Formen haben das Potenzial, Denkstile zu verändern und wis- 
senschaftliche Tatsachen zu schaffen. In der Linguistik verändern sie den Gegen- 
stand „Sprache“ auf ihre je eigene Art, wie ich am Beispiel von Listen und Par- 
tituren gezeigt habe. Karten, Bäume und Netze wären weitere in der Linguistik 
gängige Formen, deren Auswirkungen untersucht werden müssten. 

Doch welcher Art sind diese Transformationen von „Sprache“? Noch von 
einer erschöpfenden Systematik weit entfernt, nenne ich im Folgenden sechs 
grundlegende Transformationstypen, die mir für die Analyse von Sprache 
besonders relevant zu sein scheinen (aber natürlich auch bei anderen Daten 
auftauchen): 


— Rekontextualisierung: Die Listendarstellung, z. B. von Belegen in einem 
Korpus als KWiC-Liste, aber auch die Platzierung von sprachlichen Daten 
auf einer Karte, erzeugen für diese sprachlichen Daten einen neuen Kon- 
text. Weiter oben habe ich im Zusammenhang der Korpuslinguistik von 
„Dekontextualisierung“ gesprochen - ich meine, es ist angemessener von 
einer Rekontextualisierung zu sprechen, da durch die neuen Darstellungs- 
weisen eine neue Einheit gebildet wird, die durchaus in einem Kontext 
steht. Bei der KWiC-Liste beispielsweise formt das Paradigma der einzelnen 
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ks lang="de" n="a2-s87"> 

Unter APPR unter a2-s87-w1 

den ART d a2-s87-w2 

zahllosen ADJA zahllos a2-s87-w3 
Bergen NN Berg a2-s87-w4 

vor APPR vor a2-s87-w5 

unsern PPOSAT unser a2-s87-w6 

Augen NN Auge a2-s87-w7 

ragte VVFIN empor+ragen a2-s87-w8 

der PDS d a2-s87-w9 

ferne ADV ferne a2-s87-w10 

<mountain id="g_38" stid="g23" level="geo"> 
Mont NE Mont a2-s87-w11 

Blanc NE Blanc a2-s87-w12 

</mountain> 

über APPR über a2-s87-w13 

die ART d a2-s87-w14 

andern PIS ander a2-s87-w15 

empor PTKVZ empor a2-s87-w16 

; $. ;  a2-s87-w17 

</s> 

<s lang="de" n="a2-s88"> 

näher ADID nah a2-s88-w1 

bei APPR bei a2-s88-w2 

uns PRF wir a2-s88-w3 

thronten VVFIN thronen a2-s88-w4 
<mountain id="g_ 39" stid="s7302510" level="geo"> 
Schreckhorn NE Schreckhorn a2-s88-w5 
</mountain> 

> $ 5, a2-s88-w6 

<mountain id="g 40" stid="s7296734" level="geo"> 
Wetterhorn NE Wetterhorn a2-s88-w7 
</mountain> 

und KON und a2-s88-w8 

<mountain id="g 41" stid="s7308060" level="geo"> 
Jungfrau NE Jungfrau a2-s88-w9 
</mountain> 

» $, , a2-s88-w10 

dem PRELS d a2-s88-wi11 

Scheine NN Schein a2-s88-w12 

nach APPO nach a2-s88-w13 

weniger ADV weniger a2-s88-w14 

hoch ADID hoch a2-s88-w15 

als KOKOM als a2-s88-w16 

unser PPOSAT unser a2-s88-wi7 

Standort NN Standort a2-s88-w18 

. $. . a2-s88-w19 

</s> 


Abb. 6: Vertikalisierter Text mit XML-Auszeichnungen, 
Beispiel für die Partiturschreibweise in der Korpuslinguistik. 
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Syntagmen einen neuen Kontext. Deutlicher noch bei einem Kollokations- 
profil: Diese Liste ist Ausdruck eines statistischen Distributionsverhaltens; 
die Distribution ist der Kontext, in dem die einzelnen Eintràge der Liste 
gelesen werden müssen. 

— Desequenzialisierung: Sie ist manchmal ein Nebeneffekt der Rekontextua- 
lisierung. Der springende Punkt vieler Diagramme in der Linguistik ist die 
Auflösung der der Sprache innewohnenden Sequenzialisierung. Die Wort- 
frequenzliste rekombiniert den Text zu einer geordneten Liste von Wörtern 
und ignoriert deren ursprüngliche Sequenz. Nicht jede diagrammatische 
Transformation von Sprache muss zwingend zu kompletter Desequenzia- 
lisierung führen. Die Visualisierung von typischen Narrativen in seriellen 
Geschichten (Bubenhofer u. a. 2013) führt zu einer Rekontextualisierung 
(Typizität von Narrativen), ohne die ursprüngliche Sequenz zu zerstören. 
Allgemeiner könnte Desequenzialisierung als Typus einer Dimensionsre- 
duktion angesehen werden. 

— Dimensionsanreicherung: Alle Formen von Partituren, aber auch Netze, 
Bäume oder Karten reichern sprachliche Daten um weitere Dimensionen 
an. Partituren ermöglichen die Darstellung beliebig vieler weiterer Ebenen 
der Gleichzeitigkeit, Netze stellen Bezüge zu anderen Entitäten her, gerich- 
tete Graphen wie Bäume fügen die Dimension der hierarchischen Gliede- 
rung hinzu und Karten bieten eine geografische Anreicherung. 

— Rematerialisierung: Die diagrammatische Transformation überführt 
sprachliche Daten in eine neue Materialität. Das Kollokationsprofil stellt 
die statistische Zusammenfassung eines Distributionsverhaltens des ent- 
sprechenden Lexems dar und ist damit ein neuer Gegenstand, der z. B. als 
semantisches Lesartenspektrum des Lexems behandelt werden kann. Mit 
einer Karte assoziierte sprachliche Einheiten ergeben einen Gegenstand 
von Sprache „in situ“. Der Kollokationsgraph ergibt den Gegenstand des 
Bedeutungsgewebes. 


Die ersten vier Typen formen unmittelbar sprachliche Daten in eine Form um, 
die die neue Perspektive auf sie ermöglicht. Daraus ergeben sich zwei für Dia- 
gramme allgemein typische Funktionen, Operationalität und das Potenzial für 
Emergenz: 


— Ermöglichung von Operationalität: Erst wenn durch die oben genannten 
Transformationen das Diagramm entsteht, kann damit operiert werden: 
Aus einer Karte, auf der Aussprachevarianten markiert sind, können Dia- 
lekträume herausgelesen werden; im Kollokationsgraph können Knoten 
hervorgehoben werden, um deren Position im Netz genauer zu untersu- 
chen. Bei algorithmisch erstellten und digital verfügbaren Visualisierungen 


56 — Noah Bubenhofer 


dienen oft Mittel der interaktiven Beeinflussung dazu, mit dem Diagramm 
operieren zu können. Allerdings ist digitale Interaktivität keinesfalls not- 
wendig, um Operationalität zu erzeugen, denn diese kann auch mit Stift und 
Papier oder nur in Gedanken vollführt werden. Und andererseits geht bei 
digitalen Daten diagrammatische Operationalität über Interaktivität hin- 
aus, da sie auch die zugrunde liegenden Algorithmen berührt. 

— Emergenz-Erzeugung: Die Visualisierung der Daten ermöglicht im besten 
Fall, darin ein emergentes Phänomen sichtbar zu machen (vgl. dazu auch 
Barbaresi Seite 167 in diesem Band). Bei Netzgraphen gibt die generelle 
Ausprägung des Netzes - etwa ob viele oder wenige Cluster von Knoten 
sichtbar sind, wie dicht das Netz ist etc. — eine Information über die Art des 
Netzes. Bei der Betrachtung eines Kollokationsprofils erscheinen auf einer 
emergenten Ebene „Bedeutungen“ des Lexems, auf einer Dialektkarte sind 
es „Dialekte“, bei anderen Darstellungen vielleicht „Diskursräume“ oder 
„sprachliche Muster“, also alles reichlich abstrakte Phänomene, die aus der 
Einzelbetrachtung von Belegen oder Datenpunkten nicht abgeleitet werden 
könnten und erst mit der Visualisierung als generelle Form sichtbar werden. 


Generell handelt es sich bei diesen diagrammatischen Operationen um Verfah- 
ren „‚rekursive[r] Transkriptivität‘ der Sprache“ (Jäger 2010: 315): 


„Symbolische Systeme tendieren dazu, als Gewinn aus der für 
sie charakteristischen Verfahrensform der rekursiven Selbstver- 
arbeitung Eigensinn zu generieren. Dies gilt insbesondere für 
Sprache, die in paradigmatischer Weise über die Eigenschaft 
verfügt, sich rekursiv auf sich selbst zurückzubiegen und so die 
eigene Zeichenverwendung fortlaufend zum Gegenstand wei- 
terer thematisierender, kommentierender, explizierender oder 
zitierender Zeichenverwendungen zu machen, zum Objekt also 
selbstbezüglicher semiologischer Operationen, in denen sich 
das zeigt, was man die ‚rekursive Transkriptivität‘ der Sprache 
nennen könnte“ (Jäger 2010: 315) 


Grundlegende Fragestellung einer Visual Linguistics ist also, genauer zu ver- 
stehen, welche diagrammatischen Operationen in welchen wissenschafts- und 
technikkulturellen Umgebungen zu welchen Deutungsmöglichkeiten (Semanti- 
ken) von Sprache führen. 

Die Beiträge in diesem Band sind Zeugnis einer lebendigen Visualisierungs- 
praxis in der Sprachwissenschaft. Die Digitalisierung der Daten und das neu 
erwachte Interesse im Fach für die Analyse großer Textdatenmengen ermöglicht 
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Visualisierungsexperimente, die den Kanon gegenwärtig erheblich erweitern 
und Einfluss auf die herrschenden Denkstile haben. Es scheint mir dabei zwin- 
gend, aber auch lohnenswert, gerade aus geisteswissenschaftlicher Sicht den 
Algorithmus und das Programmieren nicht Spezialist/innen komplett zu überlas- 
sen, sondern zumindest die kulturellen Prägungen dieser Praktiken zu verstehen. 
Ebenso wichtig ist, die Visualisierungspraktiken im Fach nicht als Mittel zum 
Zweck, sondern als gegenstandskonstituierend zu verstehen, als Praktiken, die 
sowohl Ausdruck von Denkstilen sind als auch diese mitkonstituieren. 

Danksagung: Der vorliegende Beitrag entstand im Rahmen des vom Schwei- 
zer Nationalfonds (SNF) geförderten Projektes „Visual Linguistics“. 
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Rainer Perkuhn / Marc Kupietz 


Visualisierung als aufmerksamkeits- 
leitendes Instrument bei der Analyse 
sehr großer Korpora 


Abstract Sehr große Korpora - wie das Deutsche Referenzkorpus DEREKo 
- bieten eine breite Basis für die empirische Forschung. Sie bringen aber auch 
Herausforderungen mit sich, da sich weder Eigenschaften ihrer Zusammenset- 
zung noch derer von Recherche- und Analyseergebnissen mit einfachen Mitteln 
erschließen lassen. Dafür bedarf es Verfahren geschickter Sortierung, Gruppie- 
rung oder des Clusterings, kurzum: strukturentdeckender Methoden. In Kom- 
bination mit Visualisierungstechniken kann so die Wahrnehmung bestimmter 
Eigenschaften und Zusammenhänge unterstützt und die Aufmerksamkeit auf 
bestimmte Phänomene, ggf. in Anlehnung an präferenzrelationale Befunde, 
gelenkt werden. Neben der illustrativen Funktion geht es in diesem Beitrag vor 
allem um das erkenntnisleitende Potenzial derartiger Verfahren in Kombination. 
Aus verschiedenen Bereichen werden Beispiele gezeigt, die am IDS oder in Koope- 
rationen zum Einsatz kommen, sowohl zur dokumentarischen und reflexiven 
Kontrolle von Eigenschaften der Korpuszusammensetzung als auch hinsichtlich 
korpusanalytischer Methodik, um die qualitative Interpretation von Analysebe- 
funden und die Abduktion von Hypothesen stimulierend zu unterstützen. 


1. Einleitung 


Visualisierung, insbesondere die Forschung zur Visualisierung, ist nicht das pri- 
märe Forschungsfeld der Projekte, aus deren Arbeit im Folgenden berichtet wird. 
Die Schwerpunkte der Projekte sind vielmehr angesiedelt im Umfeld des Deutschen 
Referenzkorpus (DEREKo) des Instituts für Deutsche Sprache (IDS, Institut für 
Deutsche Sprache 2016a). Der Bericht soll daraus überblicks- und querschnittsar- 
tig Themenbereiche kurz vorstellen, in denen Visualisierungstechniken zum Ein- 
satz kommen. Neben vereinzelten Anwendungen zu illustrativen Zwecken wird 
- und perspektivisch in noch stärker zunehmendem Maße - ein Aspekt in den 
Mittelpunkt gerückt, den Schumann/Miiller (2000) als Informationsvisualisierung 


Erschienen in: Noah Bubenhofer u. Marc Kupietz (Hrsg.): Visualisierung 63 
sprachlicher Daten. Heidelberg: Heidelberg University Publishing, 2018 
DOI: https://doi.org/10.17885/heiup.345.474 
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dem Bereich Data Mining bzw. Knowledge Discovery in Databases (KDD) zuord- 
nen. Als Fortführung unseres Forschungsparadigmas, das das Aufspüren präfe- 
renz-relationaler Zusammenhänge im Sprachgebrauch zum Ziel hat, setzt diese 
Art der Visualisierung auf „die Idee, das menschliche visuelle System mit seinen 
unnachahmlichen Fähigkeiten zum Auffinden von Strukturen und Korrelationen 
zur Analyse der Informationen zu nutzen“ (ebda, S. 342). Ihre Aufgabe in diesem 
Kontext ist z. T. weniger die einer adäquaten und objektiven Ergebnisdarstellung 
als vielmehr die eines Hilfsmittels zur Abduktion vielversprechender Hypothesen. 
Die Güte des gesamten Vorgehens hängt aber nicht nur von einer geeigneten Visu- 
alisierung ab, sondern insgesamt von einem harmonischen Zusammenspiel einer 
angemessenen Datengrundlage, geeigneter Analyseverfahren und der Fähigkeit, 
die durch die Visualisierung hervorgehobenen Aspekte zu interpretieren. Die 
Rolle des Interpretierenden übernehmen wir dabei teilweise vollständig selbst. 
Insbesondere bei der Erschließung der Zusammensetzung des Korpus fließen die 
Erkenntnisse in die Dokumentation und rückgekoppelt in die weitere Akquisiti- 
onsstrategie ein. Für die Entwicklung oder Verfeinerung von Analysemethoden 
beziehen wir darüber hinaus als Interpretierende aber auch die Methodenanwen- 
der für ihre diversen linguistischen Fragestellungen mit ein. 

Der stärker rückgekoppelte Einsatz der Visualisierungstechniken ergibt sich 
in unserem Umfeld aus der extremen Größe des Archivs und einer zum Teil 
„opportunistischen“ Akquisitionsstrategie. Im Vergleich zu anderen Korpora, 
die gezielt nach vorgegebenen Kriterien aufgebaut werden, wird das Archiv des 
IDS dynamisch weiterentwickelt und kontinuierlich ausgebaut. Der Erfolg der 
Bestrebungen hängt dabei von konzeptuell Gewünschtem ab, aber natürlich 
auch von dem, was rechtlich, finanziell und technisch - grundsätzlich von den 
gegebenen Kapazitäten her - machbar ist (vgl. Kupietz/Schmidt 2015). Da das 
Archiv als Ur-Stichprobe dienen soll, ist eine ungleichmäßige Zusammensetzung 
der Daten weniger relevant. Jeder Nutzende kann eine Arbeitsversion aus die- 
ser Datensammlung als ein sogenanntes virtuelles Korpus zusammenstellen (vgl. 
Kupietz et al. 2010). Trotzdem ist es natürlich hilfreich, möglichst viele Informa- 
tionen über die Zusammensetzung der Daten zu sammeln, einerseits, um den 
Nutzenden bei der Definition des Arbeitskorpus zu unterstützen, andererseits, 
um Bereiche aufzuspüren, die noch besser ausgebaut werden könnten. 

Zu Anfang des nächsten Abschnitts wollen wir aber zunächst am Beispiel 
eines als ausgewogen geplanten Korpus zeigen, wie Visualisierung im primär 
illustrierenden Sinne eingesetzt werden kann. Anstelle von hierarchischen Struk- 
turen, die für didaktische und/oder dokumentarische Zwecke syntaktische oder 
morpho-syntaktische Zusammenhänge veranschaulichen oder auch die Genese 
und Verwandtschaft von Sprachfamilien (vgl. Bubenhofer in diesem Band, S. 63), 
deuten wir nur einige Diagrammtechniken für Verteilungen an, wie sie in den 
meisten Tabellenkalkulationsprogrammen integriert angeboten werden. 
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2. Eigenschaften/Zusammensetzung des Archivs 


Korpora werden vielfach nach bestimmten Vorgaben geplant, etwa dass (zumin- 
dest abschnittsweise) ein bestimmter Umfang angestrebt wird oder dass die Zusam- 
mensetzung nach bestimmten Kriterien (wie Textsorte o.Ä.) einer bestimmten 
Verteilung folgt. Für das DWDS-Kernkorpus ist laut Webseite (http://www.dwds. 
de/ressourcen/kernkorpus/, letzter Zugriff am 22. August 2016) ein Umfang von 
10.000.000 Token je Dekade des 20. Jahrhunderts und eine Zusammensetzung von 
Belletristik : Gebrauchsliteratur : Wissenschaft : Zeitung im Verhältnis 28,42% : 
21,05% : 23,15% : 27,36% vorgegeben (verschriftlichte gesprochene Sprache ist bei 
diesen Zusammenstellungen herausgenommen). Ohne die Plausibilität dieser Vor- 
gaben diskutieren zu wollen, zeigen wir hier eine selbst erzeugte Grafik für die 
geplante Verteilung nach Textsorten, ein sogenanntes Tortendiagramm (s. Abb. ı). 


DWDS Korpus 


geplante Zusammensetzung nach Textsorten 


E Belletristik 28% E Zeitung 27% 


EB Gebrauchsliteratur 21% A Wissenschaft 23% 


Abb. 1: Geplante Verteilung nach Textsorten (DWDS-Kernkorpus) (Copyright IDS). 


Die reine Darstellung der SOLL-Werte liefert nur wenig zusätzliche Information 
— am wenigsten bei einer Darstellung der Umfange pro Jahrzehnt. Interessant 
wird es aber auch in diesem Umfeld schon, wenn die geplanten und die tatsäch- 
lich erreichten Werte nebeneinandergestellt präsentiert werden. Eine Darstel- 
lung der beiden Dimensionen getrennt voneinander lässt sich noch gut umsetzen 
(vgl. Abb. 2). 

Der Versuch, beide Dimensionen zusammenzuführen, zeigt ansatzweise die 
Grenzen des Machbaren auf (vgl. Abb. 3). Um die Bereiche lokalisieren zu kön- 
nen, die auf der Webseite als unterbesetzt erwähnt werden, braucht es ein glück- 
liches Händchen für die Wahl der Perspektive bzw. der Anordnung in der Tiefe 
zwischen Vorder- und Hintergrund. 
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Abb. 2: Vergleich IST/SOLL getrennt nach Textsorte bzw. Umfang 
(DWDS-Kernkorpus) (Copyright IDS). 
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Abb. 3: Differenzierung der Dekaden-IST-Werte nach Textsorte und Umfang, 
gestapelt vs. dreidimensional (DWDS-Kernkorpus) (Copyright IDS). 
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Den Umfang der Korpora kumuliert nach Dekaden vor- und anzugeben, eröffnet 
einen schwer einzuschätzenden Spielraum für die Verteilung auf die einzelnen 
Jahre von absoluter Gleichverteilung bis hin zu extremen Schieflagen. Um die 
Zusammensetzung des IDS-Archivs zu dokumentieren, beziehen wir uns auf die 
Einheit „pro Publikationsjahr“ (vgl. Abb. 4). 


2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 
Publikationsjahr 


Abb. 4: DeREKo-Umfang pro Publikationsjahr ab 2000 (Copyright IDS). 


Die Botschaft dieses Diagramms ist nicht die Dokumentation des Vergleichs mit 
einem geplanten Ziel. Auch wenn Recherchen im gesamten Archiv durchaus 
sinnvoll sein können, soll dieser ansteigende Verlauf vor allem dafür sensibel 
machen, dass Trefferzahlen pro Jahr nur in engen Bereichen absolut miteinander 
verglichen werden können. Auch die Relativierung auf den jeweiligen Jahresum- 
fang kann bei extremen Abweichungen zu Überraschungen führen. Für Untersu- 
chungen, die auf die Dimension Zeit schauen, ist es in vielen Fällen ratsam, ein 
virtuelles Korpus zu definieren, dessen Umfang je nach zugrunde gelegter Zeit- 
einheit nicht allzu sehr schwankt (vgl. Abschnitt zu Zeitverläufen). Interessant 
hierfür sind vor allem auch Zeitungsdaten, da sie sich - im Vergleich zu internet- 
basierter Kommunikation - gut datieren lassen. Zudem erscheinen Zeitungstexte 
- im Kontrast zu Belletristik - in einem kurzen Takt, und Textproduktion und 
-publikation liegen zeitlich nah beieinander. Sie bilden verhältnismäßig gut und 
vor allem eben zeitnah den allgemeinen Sprachgebrauch ab, zugegebenermaßen 
stark vom Zeitgeschehen, teilweise mit einem gewissen Lokalkolorit, beeinflusst. 
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2.1 Geografische Verteilung der Archiv-Quellen 


Zeitungsdaten, auf die wir uns in diesem Abschnitt konzentrieren wollen, wei- 
sen regionale Unterschiede auf. In geringem Maße ergibt sich dies sicher auch 
aus dem umgebungsbedingten Substandard der allgemeinen Sprache (wobei ver- 
mutlich die wenigsten Redakteure „unverfälschte“ gebürtige Sprecher der jewei- 
ligen Region sind). Vielfach sind aber gerade die Themen, über die geschrieben 
wird, und somit Wortwahl und das Vokabular stark durch die Region geprägt. 
Für Untersuchungen, die gerade gezielt darauf eingehen wollen oder die Effekte 
in einem größeren Zusammenhang gedämpft sehen möchten, wird häufig der 
Wunsch an uns herangetragen, mehr Daten aus möglichst vielen verschiedenen 
Regionen zur Verfügung zu stellen. In einem benachbarten IDS-Projekt „Deutsch 
heute“, das sich zum Ziel gesetzt hat, flächendeckend Audio-Aufnahmen für ein 
Korpus gesprochener Sprache zu erheben, wurde dieses Bestreben Teil der Pro- 
jektplanung (vgl. Abb. 5). 

Demhingegen wollen wir für die schriftsprachlichen Korpora im Allge- 
meinen nicht zur Textproduktion auffordern, sondern uns bei Quellen bedie- 
nen, die in einem „natürlichen“ Prozess Texte gestalten. Eine entsprechende 
Karte wäre deutlich dünner besetzt als die in Abb. 5 gezeigte, liegt uns aber 
nicht vor. Anstelle der Produktionsorte haben wir die Verlagsorte unserer 
Textspender auf eine Karte geplottet (vgl. Abb. 6). Sie stellt einen Ausschnitt 
aus Mitteleuropa dar, im Kern bestehend aus Deutschland und den Nachbarlän- 
dern, in denen Deutsch zumindest als Minderheitensprache gesprochen wird. 
Dazu haben wir auf die Orte Kreissignaturen platziert, die in ihrer Größe dem 
Umfang der Texte entsprechen, die aus den Quellen des gleichen Ortes in unser 
Archiv eingespeist sind. 

Um den Erfolg einer der letzten Akquisitionsbestrebungen zu dokumentieren, 
sind die Kreise in unterschiedlichen Farben jeweils für die Zeit vor und nach der 
Aktion markiert. Wie die Karte zeigt, sind sehr viele Lücken geschlossen worden. 
Sie zeigt aber auch, dass auch vor der Akquisition der Schwerpunkt gar nicht so 
sehr durch die Großregion Mannheim geprägt war (was dem Archiv gelegentlich 
unterstellt wird) - und dass noch einige Lücken geblieben sind. Neben vielen 
anderen Aspekten bleibt bei dieser Darstellung auch unberücksichtigt, wie sich 
die Bevölkerung auf die Regionen verteilt und wie hoch etwa die Auflagenstärke 
der Printmedien ist, um womöglich einen rezeptiven Wirkungsgrad abschätzen 
zu können. 
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Abb. 5: Geplante Orte der Datenerhebung (Deutsch heute) (Copyright IDS, 
http://www1.ids-mannheim.de/fileadmin/prag/AusVar/Deutsch_heute/ 
Erhebungsorte_DH_70.jpg). 
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Abb. 6: Regionale Verteilung der bestehenden DeReKo-Zeitungsquellen 
und der in 2013 neu akquirierten Quellen. (Copyright IDS) 


2.2 Textdublettenerkennung 


Aus verschiedenen Gründen kann es vorkommen, dass nahezu identische Texte 
zur Aufnahme in das Archiv bereitgestellt werden. Dies kann versehentlich 
zustande kommen aufgrund von Überschneidungen des redaktionellen Prozes- 
ses mit der Übernahme der Daten in unsere Arbeitsabläufe. In anderen Fällen 
kann es sich um schematisch angelegte Texte handeln, wie etwa Wetterberichte, 
Kinoankündigungen oder -rezensionen, oder auch um Variationen von Agentur- 
meldungen. Während im ersten Fall die Einschätzung relativ eindeutig ausfallen 
sollte, dass es sich dabei um (echte) unerwünschte Textdubletten handelt, ist dies 
bei den anderen Fällen weniger klar. Je nach Fragestellung (z. B. Untersuchung 
der Produktion vs. Untersuchung der Rezeption) können gerade die Variationen 
von Serientexten zum Gegenstand der Betrachtung werden. Die Ähnlichkeiten 
zwischen den Texten unseres Archivs werden mithilfe eines Dublettenerken- 
nungsverfahrens (Kupietz 2005) ermittelt, dem zum Zweck einer einfacheren 
Qualitätsprüfung eine Visualisierung nachgelagert ist. Diese basiert auf einer 
einfachen Alignierung und farblichen Hervorhebung der Gemeinsamkeiten und 
Unterschiede, setzt damit aber genau die erforderliche Expressivität um (vgl. 


Abb. 7). 
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T03/JUL.36384 die tageszeitung, 25.07.2003, S. 28, Ressort: tazplan-Programm; T03/JUL.37208 die tageszeitung, 30.07.2003, S. 28, Ressort: tazplan-Programm; 


Diese Woche frisch Diese Woche frisch 

Neu im Kino: Neu im Kino: 

Brandzeichen - Momente der Rebellion: Doku über den Kampf gegen die Brandzeichen - Momente der Rebellion: Doku über den Kampf gegen die 
Neoliberalisierung in Argentinien Das verordnete Geschlecht: Interviews mit Neoliberalisierung in Argentinien Das verordnete Geschlecht: Interviews mit 
Hermaphroditen Die Blume des Bösen: Claude Chabrol seziert wieder die französische Hermaphroditen Die Blume des Bösen: Claude Chabrol seziert die französische 
Provinzbourgeoisie und deren Kellerleichen Früchte der Liebe: ein schwuler Provinzbourgeoisie und deren Kellerleichen Früchte der Liebe: Ein schwuler 
Pianistengott, sein jugendlicher Liebhaber und dessen Mutter bilden ein Dreieck Pianistengott, sein jugendlicher Liebhaber und dessen Mutter im Dreieck Natürlich 


Natürlich blond 2: Lustig gemeinter Blondinenfilm Planet der Kannibalen: Düsterer blond 2: Lustig gemeinter Blondinenfilm Planet der Kannibalen: Düsterer 

Sciene Fiction, schwarzweiß mit einem kleinen Lichtstreif am Horizont Raumpatrouille Sciencefiction, schwarzweiß mit einem kleinen Lichtstreif am Horizont Raumpatrouille 
Orion - Rücksturz ins Kino: Das Weltraumabenteuer unserer Eltern jetzt endlich im Orion - Rücksturz ins Kino: Das Weltraumabenteuer unserer Eltern jetzt endlich im 
Kino Sindbad - Herr der 7 Meere: Der Held aus 1001 Nacht als cooler Slacker The Kino Sindbad - Herr der 7 Meere: Der Held aus 1001 Nacht als cooler Slacker The 
Gathering: Horror mit Christina Ricci Vampire Hunter D: Zeichentrickfassung des Gathering: Horror mit Christina Ricci Vampire Hunter D: Zeichentrickfassung des 
beliebten japanischen Vampircomics, ganz ohne Bisse beliebten japanischen Vampircomics, ganz ohne Bisse 


SCIENE FICTION SCIENCEFICTION 


Abb. 7: Visualisierung von Textdubletten (DEReKo) (Copyright IDS). 


Die Dublettenerkennung wird in erste Linie dazu eingesetzt, um die Beziehun- 
gen zwischen den Texten zu dokumentieren und als Metadaten festzuhalten. Nur 
in eindeutigen Fallen werden die Texte tatsächlich aussortiert. Perspektivisch 
soll es den Nutzenden virtuell ermöglicht werden, diese Entscheidung für die 
Gesamtmenge der markierten Texte über einen einstellbaren Schwellwert selbst 
zu treffen. 


2.3 Inhaltliche Eigenschaften der Archiv-Quellen 


Neben der stärksten Ausprägung der Ähnlichkeit von Texten als nahezu voll- 
ständige Übereinstimmung gibt es weitere Beweggründe, um Texte oder ganze 
Korpora bezüglich weicherer Aspekte zu vergleichen. Zum Beispiel: Entstam- 
men Texte etwa ähnlichen Registern oder handeln sie von ähnlichen Themen? 
Bereits beim Vergleich unseres Archivs mit dem zum Zeitpunkt der Untersu- 
chung größenmäßig vergleichbaren webbasierten Korpus deWaC (Baroni et 
al. 2009) hat sich gezeigt, wie aussagekräftig Vergleiche schon allein auf der 
Ebene des lexikalischen Inventars, also des Vokabulars, sind. In Fortführung 
dieser Gedanken haben wir alle Teilkorpora unseres Archivs mithilfe eines 
Maßes von Kilgarriff (2001) verglichen, das auf den vorderen Ausschnitten der 
frequenzsortierten Vokabulare basiert (Kupietz et al. 2012). Hintergrund der 
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Studie war der Versuch, wiederum aus einer webbasierten Ressource durch 
optimierende wiederholte Stichprobenziehungen eine Sammlung von Texten 
(„itDeWaC“) zusammenzustellen, die einem echten Literaturkorpus (,lit“: 
zusammengesetzt aus allen Belletristik-Teilkorpora aus DEREKo) möglichst 
nahekommt. In Abb. 8 sind die Abstände zwischen den Korpora mithilfe nicht- 
metrischer multidimensionaler Skalierung (NMDS) zweidimensional projiziert 
(vgl. Cox & Cox 2001). Sie zeigt durchaus plausible räumliche Anordnungen, 
wobei sich in diesem Fall die Semantik des Hintergrunds erst aus der Interpre- 
tation der Gruppen ergibt. 
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Abb. 8: Ergebnisdarstellung der Extraktion eines Pseudo-Literaturkorpus 
litDeWaC nach dem Vorbild des Korpus lit aus deWaC vor dem Hintergrund 
aller DeReKo-Teilkorpora (weitere Abkürzungen siehe http://www.ids-mann- 
heim.de/kl/projekte/korpora/archiv.html (interaktiv)). Die Ähnlichkeitsmatrix 
der Teilkorpora wurde wie in Kilgarriff (2001) mit Spearmans Rangkorrelati- 
onskoeffizienten berechnet. Zur Projektion der Ähnlichkeitsmatrix auf eine 
Karte wurde NMDS verwendet. (Copyright IDS) 
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Dabei ist weniger die Positionierung des neuen Korpus litDeWaC überraschend, 
da dessen Zusammenstellung ja gerade auf die Nähe zu bekannten Literatur- 
daten (lit) ausgerichtet war. Beeindruckend ist aber schon das Gesamtbild, das 
sich aus der Anordnung der verschiedenen Teilkorpora abzeichnet, beispiels- 
weise im unteren rechten Bereich die Nähe der LOZ-Korpora (Literatur, Ori- 
ginalsprache: Deutsch, des Zwanzigsten Jahrhunderts) untereinander und zu 
den Korpora einzelner Schriftsteller (thm - Thomas Mann, goe - Goethe), aber 
auch zu den Märchen der Gebrüder Grimm (gri). Insgesamt deutet sich eine 
Topographie anhand verschiedener Texteigenschaften wie Register, Medium, 
Textsorte, Thematik u. A. an: Im mittleren rechten Bereich schimmern etwa 
Aspekte mündlicher Interaktion durch, durch das gemeinsame Arrangement 
der Korpora „Reden und Interviews“ (rei), dem Wendekorpus (wkd) und dem 
Pfeffer-Korpus (pfe). 


3. Ergebnisübersichten der Treffermengen 


Neben den bisher diskutierten, stärker kumulativen Betrachtungen von Texten 
oder Korpora finden Visualisierungstechniken auch bei eher wortbezogenen 
Auswertungen Anwendung. Bereits seit den Anfängen der Korpuslinguistik 
werden die auf die Suchobjekte passenden Texteinheiten bei der Beleganzeige 
durch Textattribute (fett, Farbe) hervorgehoben. Bei der auf einen unmittelba- 
ren Vergleich ausgerichteten kompakten Darstellung einer Konkordanz wird 
dies zusätzlich durch die positionelle Anordnung unterstützt: Mehrere Treffer 
werden zeilenweise untereinander so angeordnet, dass die gefundenen Objekte 
mittig aligniert untereinander platziert werden. Nach links und rechts werden 
dann - je nach Platz aufgrund des genutzten Mediums - gleichermaßen so 
viele Zeichen aufgefüllt, wie eine Zeile aufnehmen kann. Während man in den 
frühen Phasen aufgrund der gegebenen Rahmenbedingungen dafür auf nicht- 
proportionale Schriften zurückgegriffen hat, lässt sich dies mit heutigen Mit- 
teln auch mit proportionalen Schriften quasi tabellenartig darstellen. 

Vor allem für große Treffermengen ist es oft hilfreich, sich zunächst 
anhand eines Ergebnisüberblicks einen ersten Eindruck zu verschaffen. Wie 
viele Treffer gibt es etwa pro Jahr, wie viele pro Quelle oder je Region? So 
wie oben aber bereits angedeutet, sind absolute Häufigkeiten nur bei annä- 
hernd gleich großen Schnitten vergleichbar. Aber auch relative Frequenzen 
verlieren dann ihre Aussagekraft, wenn die Schnitte um mehrere Größenord- 
nungen auseinanderliegen. Das Recherchesystem des IDS Cosmas II (Bodmer 
Mory 2014, Institut für Deutsche Sprache 2016b) bietet Ergebnisübersichten 
nur in tabellarischer Form an. Diagramme wie die hier gezeigten können mit 
anderen Softwaretools auf der Grundlage dieser Angaben in einem weiteren 
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nachgelagerten Bearbeitungsschritt erzeugt werden, wie das Balkendiagramm 
für die Häufigkeiten pro Jahr oder das Tortendiagramm für die Verteilung nach 
Quellen, Themen oder Region (vgl. Abb. 9 und 10). 
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Abb. 9: Thematische Verteilung der Ergebnismenge zu dem Lemma 
»Heuschrecke” (DEREKo/Cosmas Il) (Copyright IDS). 
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Abb. 10: Regionale Verteilung der Ergebnismenge zu dem 
Lemma ,,Ribisel” (DeReKo/Cosmas Il) (Copyright IDS). 
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Die Darstellung der regionalen Verteilung für das Wort Ribisel zeigt dabei einen 
eindeutigen Befund, der unabhängig von absoluten oder relativen Häufigkeiten 
ist: Dieses Wort wird fast ausschließlich im österreichischen Deutsch verwendet. 


3.1 Ergebnisübersicht der Treffermengen nach Zeit 
(Zeitverlaufsgrafiken) 


Die relativen Vorkommen einer sprachlichen Einheit pro Zeitabschnitt genießen 
für verschiedene Fragestellungen eine besondere Aufmerksamkeit. Eine geeignete 
Datengrundlage vorausgesetzt, lassen sich Häufigkeitsverschiebungen als Verän- 
derungen im Sprachgebrauch deuten: als Indizien für die Lebendigkeit bestimmter 
Diskurse oder, im einfachsten Fall, für das Aufkommen neuer (oder das Ausster- 
ben alter) Wörter. Für Wörter, die in ihrer Form neu in einem bestimmten Zeitab- 
schnitt zu beobachten sind, sogenannte Neulexeme (z. B. der Jahre 2000 bis 2010), 
generieren wir auf der Grundlage eines speziell dafür zusammengestellten virtu- 
ellen Korpus Zeitverlaufsgrafiken (Lüngen/Keibel 2013, vgl. Abb. 11), die über das 
Online-Informationssystem OWID, Rubrik Neologismenwörterbuch, öffentlich 
angeboten werden. 


Zeitliche Verteilung der Gebrauchshäufigkeiten zu "aufbrezeln” 
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Abb. 11: Zeitverlaufsgrafik eines Neulexems (DEREKo/OWID) (Copyright IDS, 
http://www.owid.de/artikel/298252, http://www.ids-mannheim.de/kl/ 
neoplots/owid/298252.html). 
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Neben dieser Visualisierung als Bestätigung eines Befundes setzen wir auf den 
Gesamtbestand des Korpus auch Verfahren auf, um Neulexem-Kandidaten aufzu- 
spüren (Keibel et al. 2010). Visualisierung spielt in diesem Zusammenhang aber 
nur eine untergeordnete Rolle, um didaktisch zu illustrieren, dass Neulexem- 
Kandidaten als notwendige Bedingung einen Zeitverlauf aufweisen müssten, der 
auf eine schematisch angedeutete Zeitverlaufsschablone passt. Wörter, die eine 
zusätzliche, neue Bedeutung angenommen haben (Neubedeutungen), lassen sich 
mit diesen einfachen quantitativen Verfahren nicht aufspüren und somit darauf 
aufbauend auch nicht visualisieren. 


3.2 Ergebnisübersicht der Treffermenge nach Kontext (Kookkurrenz) 


Eine andere Form, die Treffermenge eines Suchausdrucks zu sortieren, basiert 
auf der Idee, dafür die Wörter in der unmittelbaren textuellen Umgebung heran- 
zuziehen, die besonders systematisch in der Nähe des Suchausdrucks vorkom- 
men. Für die Berechnung dieser typischen Wortverbindungen bietet das IDS das 
parametrisierbare Verfahren der Kookkurrenzanalyse (Belica 1995) an, das auch 
in dem System Cosmas II integriert ist. Die Präsentation des Analyseergebnis- 
ses ähnelt in diesem System, wenn auch mit höherer Komplexität, den bereits 
bekannten tabellarischen Darstellungen. Gerade für diesen Ergebnisüberblick 
sind aber speziellere Zugangsformen wünschenswert, da die Skala der Sortie- 
rung nicht vorgegeben ist, sondern sich erst aus der Analyse heraus ergibt. Ein 
Vorgehensmodell für die Erschließung dieser Ergebnisstrukturen wurde für aus- 
gewählte Aspekte als Prototyp operationalisiert (Perkuhn 2007a/b). Für dieses 
Werkzeug sind die zwei zentralen Aspekte die Visualisierung der Gesamtstruk- 
tur und die Möglichkeit, in Form von Annotationen gewonnene Erkenntnisse 
festhalten zu können, wobei wir auf den zuletzt genannten Aspekt hier nicht 
weiter eingehen werden. Die Darstellung der Gesamtstruktur steht vor der Her- 
ausforderung, dass bei den üblicherweise verwendeten Medien nur begrenzt 
Raum zur Verfügung steht. Der Ausweg, nur einen kleinen ausgewählten Aus- 
schnitt anzubieten - z. B. über scrollbare Fensterausschnitte wie bei der Cosmas 
II-Präsentation -, steht im Widerspruch zur Forderung einer Gesamtsicht. Um 
alle Elemente der Gesamtstruktur anzeigen zu können, müssten diese jedoch so 
weit verkleinert werden, dass sie quasi nicht mehr zu erkennen sind. Ein Ausweg 
aus diesem Dilemma bietet ein einfacher Ansatz, der diese Übersicht von „Mini- 
aturen“ um interaktiv angebotene Möglichkeiten ergänzt. So können beispiels- 
weise einzelne Elemente oder Ausschnitte ausgewählt werden, die vergrößert 
und dadurch erkennbar dargestellt werden (analog Abb. 15). Die Interaktions- 
möglichkeiten sind zurzeit über Maus-Bewegungen und -Aktionen umgesetzt. 
Die sogenannten Fokus&Kontext-Techniken (vgl. Lamping et al. 1995) könnte 
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man als Variante dieses Ansatzes verstehen, bei denen ein ausgewählter Aus- 
schnitt zu Anfang bereits gesetzt ist. Das, was im Fokus steht, wird gut erkenn- 
bar dargestellt eingebettet in dessen Kontext, d. h. vor dem Hintergrund der ggf. 
zur Unkenntlichkeit verkleinerten Gesamtstruktur. Unsere Präsentation bedient 
sich hierzu eines hyperbolischen Modells (vgl. Abb. 12). Dabei wird eine hier- 
archische Struktur sozusagen auf eine Halbkugel, die von oben betrachtet wird, 
projiziert. Hätten wir die hierarchische Struktur plan in der Ebene radial um 
die Wurzel herum aufgezeichnet, wären die Verbindungslinien zwischen den 
verschiedenen Hierarchiestufen gleich lang. Dadurch, dass dieses netzartige 
Gebilde quasi über die Halbkugel gelegt wird, wirken die Linien in der Nähe der 
Wurzel fast so lang wie in der Ebene, während die weiter außen liegenden quasi 
perspektivisch in der dritten Dimension „nach hinten“ nahezu verschwinden. 
Die Größen der verbundenen Objekte werden entsprechend angepasst, so dass 
die oben liegenden (der oberste und sein enger Kontext) gut zu erkennen sind, 
die weiter außen liegenden im Normalfall aber unkenntlich klein sind. 

Die Projektion auf die Halbkugel ist der Trick, um auf dem begrenzt zur Ver- 
fügung stehenden Raum eine beliebig komplexe hierarchische Struktur abbil- 
den zu können. Der äußere Rand sammelt die Objekte der untersten Ebene der 
Hierarchie mit der maximalen Verzweigung der Verästelung. Jedes Element 
der Struktur kann aber zum obersten Punkt der Halbkugel verschoben, somit 


Abb. 12: Hyperbolische Repräsentation des Kookkurrenzprofils des Lemmas 
„Rock“ (Vicomte) (Copyright IDS). 
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in den Fokus gerückt und gut erkennbar dargestellt werden. Auf diesem Weg 
lässt sich nach und nach die gesamte Struktur erschließen. 

Bei unseren Analyseergebnissen handelt es sich meist um sehr flache, aber 
sehr schnell stark verzweigende Strukturen. Die herkömmliche Art der Fokus- 
verschiebung ermöglicht eine nur sehr kleinschrittige Navigation durch die 
Gesamtstruktur. Neben der interaktiven Vergrößerung von Elementen über die 
Maus-Bewegung bietet unser Ansatz deshalb eine überlagernde Fokussierung 
auf einen Ausschnitt der ersten Ebene der Hierarchie an. In der oberen Hälfte 
der Halbkugel wird ein sehr kleiner Ausschnitt auf den zur Verfügung stehenden 
Platz gestreckt, während sich der Rest der Gesamtstruktur mit der unteren Hälfte 
begnügen muss. Zusätzlich zu den anderen Fokussierungsmöglichkeiten lässt 
sich die Gesamtstruktur drehen, sodass nach und nach jeder Abschnitt der ers- 
ten Hierarchieebene gut erkennbar dargestellt wird. Einzelne Elemente können 
hervorgehoben werden, was auch fixiert für die Darstellung im unteren Bereich 
beibehalten wird. 

Untersuchungen (z. B. in Storjohann 2007a/b, Schnörch 2015) haben gezeigt, 
dass diese Visualisierungsform wie auch die hier nicht näher ausgeführte Möglich- 
keit der Annotation die Erschließung der Gesamtstruktur für verschiedene Frage- 
stellungen gut unterstützt und sie dadurch nachvollziehbar dokumentiert wird. 


x TPO na 


Abb. 13: Hervorgehobene Übereinstimmungen des Profils des Lemmas „Rock“ 
im Vergleich zum Lemma „Kleid“ (Vicomte) (Copyright IDS). 
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3.3 Kookkurrenz und Zeit 


Während sich Neulexemkandidaten über einen typischen Zeitverlauf charak- 
terisieren lassen, ist dieser für viele Neubedeutungen eher unscheinbar. Die 
Ausschläge der Amplituden sind nicht auffälliger als bei bedeutungsstabilen 
Wörtern, bei denen diese durch Veränderungen in der Zusammensetzung der 
Daten, durch das Weltgeschehen oder einfach durch „Modeerscheinungen“ 
bedingt sind. Vor allem fehlt aber das Gegenstück für eine einfache quantita- 
tive Messung: Anders als bei einem Neulexem, dessen Häufigkeit vor dessen 
Initiation vernachlässigbar klein gewesen sein muss, kann das Aufkommen 
einer neuen Bedeutung nicht ohne Weiteres zu einem bestimmten Zeitpunkt 
zahlenmäßig erfasst werden. Einen Anhaltspunkt gibt es aber dennoch: Wenn 
sich Bedeutungsaspekte im Kookkurrenzverhalten eines Wortes niederschla- 
gen, so sollten sich auch Bedeutungsveränderungen in Änderungen des Kook- 
kurrenzverhaltens abzeichnen. Um die oben angedeuteten alternativen Gründe 
für Veränderungen ein wenig kontrollieren zu können, achten wir für entspre- 
chende Untersuchungen verstärkt auf eine durchgängig homogene Zusam- 
mensetzung des zugrunde gelegten virtuellen Korpus. Der Preis, den wir dafür 
zahlen, besteht in kleineren Treffermengen. Wenn diese so gering ausfallen, 
dass Kookkurrenzanalysen für einzelne Jahrgänge zu unergiebig sind, sind die 
Definitionen der Zeitscheiben auf mehrere Jahrgänge zu erweitern. Ein weite- 
rer Nachteil des kritischen Mindestdatenumfangs besteht darin, dass lediglich 
Untersuchungen für ca. die letzten 25 Jahre umsetzbar sind. Aufgrund noch 
vieler anderer Unwägbarkeiten können wir auch noch keine Methode präsen- 
tieren, die auffälligen Bedeutungswandel aufdeckt. Wir benutzen in diesem 
Zusammenhang allerdings Visualisierungen, die die Plausibilität des Ansat- 
zes unterstützen. Die Ergebnisse explorativer Untersuchungen zeigen, dass 
die Rangverläufe im Kookkurrenzverhalten bestimmter Partnerwörter, die die 
Neubedeutungen indizieren, Parallelen zu den Zeitverläufen von Neulexemen 
aufweisen (vgl. Abb. 14). 

Für andere Fragestellungen lässt sich derselbe Ansatz verwenden, zum Bei- 
spiel, um die Entwicklung auffälliger Diskurse nachzuzeichnen (vgl. das Beispiel 
Konflikt in Perkuhn/Belica 2016). Das automatische Erkennen derartiger Indi- 
katoren gestaltet sich zurzeit noch schwierig, da einerseits das gesamte Kook- 
kurrenzprofil „ständig in Bewegung“ ist und andererseits für eine genauere Iso- 
lierung tatsächlich markanter Veränderungen mehr Messpunkte, somit breitere 
homogene Datengrundlagen erforderlich wären. 


Kookkurrenz-Rang 


Visualisierung als aufmerksamkeitsleitendes Instrument [...] — 81 


Heuschrecke 
ausgewählte Partnerwörter 


2 (unauffällig) 
> Schmetterlinge 
= Insekten 

4 "A Müntefering 
>= Hegefonds 

8 

16 
32 
64 
nv. T T 


96/97 98/99 00/01 02/03 04/05 06/07 08/09 10/11 12/13 
Jahr 


Abb. 14: Rangverlauf auffälliger Partnerwörter des Lemmas ,Heuschrecke” 
(DEREKo) (Copyright IDS). 


3.4 Kookkurrenzverhalten im Vergleich 


Wir haben im vorherigen Abschnitt beschrieben, wie das Koookkurrenzverhal- 
ten eines Wortes im Laufe der Zeit anhand zeitscheibenbezogener Kookkur- 
renzprofile analysiert werden kann, um den Bedeutungswandel eines Wortes zu 
dokumentieren. Der elementare Schritt war hierbei der Vergleich zweier Kook- 
kurrenzprofile. Ausgangspunkt des Vergleichs war in diesem Fall dasselbe Wort, 
die Profile wurden auf der Grundlage unterschiedlicher virtueller Korpora ermit- 
telt. Übertragen wir jetzt die Vorgehensweise auf die Profile zweier verschiede- 
ner Wörter, die auf der Grundlage desselben Korpus erstellt wurden, so können 
wir hoffen, etwas über die Beziehung zwischen den Wörtern zu lernen: Wörter, 
die eine enge semantische Beziehung vermuten lassen, sollten viele Gemein- 
samkeiten im Kookkurrenzverhalten aufweisen. Eine Erweiterung zu dem oben 
beschriebenen Vorgehensmodell für die Erschließung von Kookkurrenzanalysen 
visualisiert die Verteilung der Partnerwörter bei einem Vergleich von bis zu drei 
Bezugswörtern, wobei topographisch zwischen den dedizierten und den paar- 
weise (ggf. auch allen drei) gemeinsamen Partnern unterschieden wird. Erstere 
werden vertikal nach Rang, letztere nach gemitteltem Rang und horizontal näher 
bei dem Bezugswort mit dem höheren Rang angeordnet (vgl. Abb. 15). 
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Abb. 15: Hervorgehobene Übereinstimmungen des Profils des Lemmas 
„Rock“ im Vergleich zu den Lemmata „Pop“ (Ausschnittsvergrößerung) und 
„Kleid“ (Markierungen) (Vicomte) (Copyright IDS). 


Die Darstellung dieser Struktur leidet unter demselben Dilemma, das kompri- 
mierte Ansichten wie die Fokus-und-Kontext-Technik erforderlich gemacht hat. 
Auch hier wird nur überblicksartig die gesamte Information verkleinert darge- 
stellt; eine Vergrößerung von Bestandteilen ist interaktiv über einen Ausschnitt 
oder durch explizite Markierung möglich. Die Gesamtansicht liefert einen ersten 
Eindruck von der Verteilung der Partnerwörter etwa bei Synonymen oder Paro- 
nymen. Im Detail zeigen sich dann die charakteristischen Partnerwörter. Bei den 
gemeinsamen Partnern wird durch die gewichtete Anordnung bei der Visuali- 
sierung der Eindruck unterstützt, wie relevant das jeweilige Partnerwort bei den 
jeweiligen Bezugswörtern ist. 

Diese eher anschauliche Erklärung und Visualisierung einer gewichteten 
Ähnlichkeitsbeziehung zwischen Kookkurrenzprofilen ist bereits seit längerer 
Zeit durch ein formales Vergleichsmaß modelliert, das in der Kookkurrenzdaten- 
bank CCDB Anwendung findet. 
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3.5 Kartierung von Gebrauchsaspekten 


Die Kookkurrenzdatenbank CCDB (Belica 2007) wurde als Sammlung von Kook- 
kurrenzprofilen zu über 220.000 Einträgen aufgebaut und dient als Denk- und 
Experimentierplattform für die weitere methodische Auswertung der Kookkur- 
renz, u.a. für die systematische Anwendung des Ähnlichkeitsvergleichs zwischen 
allen vorhandenen Einträgen. Das Ergebnis dieses Abgleichs wird für jedes Wort 
als Liste der verwandten Profile absteigend nach dem ermittelten Maß (Related 
Collocation Profiles) in der CCDB angeboten. So überzeugend und plausibel fast 
alle Einträge in diesen Listen für sich alleine stehend wirken, so sehr deutet sich 
eine Vielfalt unterschiedlicher Begründungen der Ähnlichkeit an - im Extremfall 
bis hin zu disjunkten Aufteilungen des Kookkurrenzverhaltens aufgrund meh- 
rerer Lesarten eines Homonyms. Ein weiteres Verfahren versucht, das Verwen- 
dungsspektrum eines Wortes, das diese Vielfalt begründet, in ein grobes Raster 
einzuordnen. Dazu wird angenommen, dass sich die Wörter, die einem vorgege- 
benen Wort ähnlich sind, je in Gruppen einordnen lassen, innerhalb derer alle 
Elemente dem Bezugswort auf eine vergleichbare, aber auch von anderen Grup- 
pen abgrenzende Art ähneln. Als Ausgangsmaß für diese Einordnung wird die 
Ähnlichkeit nach dem beschriebenen Maß für alle Paare von Einträgen in der 
Liste der ähnlichen Profile herangezogen. Nach Vorgabe eines Rasters arrangiert 
dann ein selbst-organisierendes Verfahren eine Anordnung aller ähnlichen Profile 
auf einer zweidimensionalen Karte (SOM, Kohonen 1990). Die hochdimensionale 
Vielfalt der Ähnlichkeitsbeziehungen wird so auf eine planare Topologie redu- 
ziert, bei der die geometrische Distanz den bestmöglichen Kompromiss aus Ähn- 
lichkeit bzw. Unähnlichkeit aller Einträge widerzuspiegeln versucht. Oberhalb 
eines Schwellwerts wird allerdings nicht weiter differenziert. Die Gruppen von 
Wörtern, die die höchste Ähnlichkeit untereinander aufweisen, werden gemein- 
sam in einem Feld des Rasters abgebildet, da zu vermuten ist, dass sie tendenziell 
denselben Gebrauchsaspekt des Bezugswortes zum Ausdruck bringen. 

Als Raster hat sich in vielen Anwendungen eine 5x5-Matrix bewährt, deren 
Felder in fließenden Farbtönen hinterlegt sind (vgl. Abb. 16). Damit soll visu- 
ell unterstützt werden, dass die Aspekte, die in den einzelnen Feldern ausge- 
drückt werden, weich ineinander übergehen. In den Fällen, in denen aufgrund 
(Un-)Ahnlichkeitsbeziehungen kein weicher Übergang möglich ist (etwa wenn 
Aspekte unterschiedlicher, scharf trennbarer Lesarten aneinanderstoßen sol- 
len), wird dieser Abstand durch unbesetzte und ungefärbte Felder umgesetzt, die 
sich häufig (z. T. in Kombination mit weiteren, dünn besetzten Feldern) wie ein 
Trenngraben durch das gesamte Diagramm ziehen. 

Bei der (meist lexikographisch motivierten) Interpretation der Karten hat 
sich eine semiotische Ausrichtung herauskristallisiert: Ausgehend von einzel- 
nen Feldern werden auch die umgebenden Felder miteinbezogen, um zu sichten, 
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Abb. 16: Self-organized Map des Lemmas „Rock” (CCDB) (Copyright IDS). 


inwieweit diese gemeinsame Aspekte zum Ausdruck bringen. Durch die Kar- 
tierung der Gebrauchsaspekte und ihre Interpretation konnten aufschlussreiche 
Aspekte über die Verwendungsspektren der betrachteten Wörter gewonnen 
werden (Vachkova/Belica 2009). 

Eine Erweiterung des Verfahrens ist fiir die Anwendung auf Wortpaare 
konzipiert und operiert auf der Vereinigungsmenge aller Profile, die zu einem 
Wort (oder beiden) als ähnlich eingestuft wurden. Abweichend von der SOM- 
Farbgestaltung wird hierbei dann durch die Einfärbung eine weitere Informa- 
tion kodiert: Je nach Verhältnis der Ähnlichkeiten der Felder zu einem der 
beiden vorgegebenen Wörter wird die Feldfarbe aus Anteilen von Rot und Gelb 
zusammengemischt. Ein klares Votum für das eine oder andere Wort spiegelt 
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Abb. 17: Self-organized Map der Kontrastierung der Lemmata „Rock“ und 
„Kleid“ (CCDB) (Copyright IDS). 


sich in den ihnen zugeordneten Primarfarben wider; unklare Zuordnungen zei- 
gen sich durch entsprechende Abstufungen von Orangetönen. 

Angewandt auf Paare, die als Synonyme oder Paronyme gelten (vgl. 
Abb. ı7), zeigt das Verfahren und diese Einfärbung auf, in welchen Domänen 
oder Diskursbereichen die Wörter sich nahestehen oder sich scharf trennen 
lassen. Studien in diesen Bereichen (Markova 2012, Storjohann/Schnörch 
2014) zeigen, dass der reflektierte Einsatz dieser Methoden gerade auch durch 
die Interpretation der Visualisierungen einen erheblichen Mehrwert empiri- 
scher Analysen darstellt. 

Eine Besonderheit der Kartierung mithilfe von SOMs ist, dass sie kleinere 
Unterschiede vollständig ausblendet, indem sie verschiedene Wörter einer Zelle 
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Abb. 18: „höflich“ und seine 99 distributionell ähnlichsten Nachbarn in DeReKo 
dargestellt mithilfe von t-SNE (Copyright IDS). 


auf der Karte zuordnet, ohne deren Ähnlichkeitsbeziehungen und Abstände 
innerhalb dieser Gruppe im Diagramm darzustellen. Oft ist das Weglassen sol- 
cher potenziell ablenkender Detailinformation aber ein gewünschter Effekt, um 
den Blick auf das Wesentliche nicht zu verstellen. So kann eine solche Quantisie- 
rung bzw. ein solches Clustering erfahrungsgemäß die Abduktion neuer Hypo- 
thesen erleichtern. Dabei muss natürlich beachtet werden, dass man es nicht mit 
Ergebnissen zu tun hat, sondern nur mit Hypothesen, die erst noch überprüft 
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werden müssen (z. B. mithilfe neuer Analysen oder einer manuellen Untersu- 
chung von Belegstellen). 

Wenn gerade nicht das Ausblenden von Detailinformationen zur Abduktion 
allgemeinerer Hypothesen, sondern eine detaillierte, topographieerhaltende Dar- 
stellung engerer Ähnlichkeitsbeziehungen das Ziel ist, hat sich in den letzten Jah- 
ren t-SNE (van der Maaten & Hinton 2008) als eine in der Regel gut geeignete 
Methode zur Dimensionsreduktion etabliert. Abb. 18 zeigt „höflich“ und seine 
99 bezüglich ihrer distributionellen Eigenschaften ähnlichsten Nachbarn auf 
einer mithilfe von t-SNE erzeugten Karte. Zur Vektorrepräsentation der Wörter 
wurden in diesem Fall nicht Kookkurrenzprofile verwendet, sondern sogenannte 
„word embeddings“ (Mikolov et al. 2013), die mittels einer Erweiterung der Pro- 
gramme word2vec bzw. wang2vec (Ling et al. 2015) auf der Basis von DEREKo- 
2016-1 (Institut für Deutsche Sprache 2016a) berechnet wurden. Auch solche 
Streudiagramme können natürlich so angereichert werden, dass sie bestimmte 
Zusammengehörigkeitshypothesen nahelegen, indem etwa die Ergebnisse von 
Clusteranalysen über gemeinsame Farben oder Rahmen um zusammengehörige 
Knoten kodiert werden. 


4. Fazit und Ausblick 


In vielen Bereichen unserer Arbeitsfelder hat es sich als sinnvoll und hilfreich 
erwiesen, eine Mischung von quantitativ-qualitativen Vorgehensweisen mit Visu- 
alisierungstechniken zu kombinieren. Dabei können es auch durchaus schlichte 
Ansätze sein, die ausreichen, um die Interpretation auf Interessantes zu lenken. 
Aufwändigere Techniken und insbesondere Interaktionsmöglichkeiten bergen 
neben dem Einarbeitungsaufwand bisweilen die Gefahr, verstärkt Aufmerksam- 
keit zu binden und den Status der angebotenen Signale überzubewerten. 

Man sollte stets im Hinterkopf behalten, dass nicht unbedingt neue Fakten, 
sondern nur zu interpretierende Hinweise angeboten werden. Diese können in 
verzerrender Weise zu Unrecht überspitzt sein, sie können auch weniger relevant 
sein als andere, die nicht in den Vordergrund gerückt wurden. 

Auch Visualisierungstechniken müssen reflektiert und mit der nötigen Dis- 
tanz eingesetzt werden. Sie sollten, wenn möglich, in verschiedenen Variatio- 
nen verglichen werden können, um die ersten, schnellen Hypothesen auf den 
Prüfstand zu stellen. Ein in jeglicher Hinsicht kritischer Punkt der Verfahren 
ist dabei, die Menge an Information auf das Wesentliche zu reduzieren und auf 
das Relevante zu fokussieren. Denn gerade dafür erhofft sich der/die NutzerIn 
Unterstützung bei der Bewältigung des Reichtums an Hinweisen, die in einem 
sehr großen Korpus stecken. 
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Es ist absehbar, dass der Bereich der Visualisierung zukünftig an Bedeutung 
gewinnt und etwa durch Andockmöglichkeiten diverser Visualisierungsverfahren 
an unser Recherchesystem für ein breites Fachpublikum zu einer selbstverständ- 
lichen Ergänzung des üblichen Arbeitens werden wird (s. a. Kupietz et al. 2015.). 
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Mark Richard Lauersdorf 


Linguistic Visualizations as objets d'art? 


ils 


Abstract This article undertakes a broad-ranging examination of the practice 
of data visualization in linguistic research, whether for elucidation and elabo- 
ration of theoretical models, analysis and interpretation of datasets, or summa- 
rization and presentation of research outcomes. Roman Jakobson’s cube model 
for Russian case theory, and the concept of objet d’art (Chvany 1987) as a notional 
frame, are deployed to draw attention to a range of issues that must be consid- 
ered in the use of linguistic visualizations. Following a survey of traditional and 
newer visualization techniques in linguistic research, the specific example of 
data analysis in historical sociolinguistics is used to make an argument for lin- 
guistic visualization practices that “use all the data”, “view all the data”, “view 
all the combinations”, “view all the angles”, and “use all the techniques”. 


Introduction 


Jakobson’s cube 


The inspiration for the title of this article is a study by Catherine Chvany entitled 
“Jakobson’s Cube as Objet d’Art and as Scientific Model” (Chvany 1987). In her 
article Chvany discusses Roman Jakobson’s “famous cube model for the interre- 
lated meanings of the eight (= 23) cases encoded in the Russian language” (199) 
and the “three binary (+ or -) features (= 23): [+ MARGINAL] (represented as 
the vertical dimension), [t QUANTIFYING] (the depth dimension), [+ DIREC- 
TIONAL] (the width dimension)” expressed by the eight Russian cases (200); and 
she reproduces a graphic representation of the Jakobson cube model, seen here 


in Figure 1. 


1 


Another version of the work appeared as Chvany 1984. 


Published in: Noah Bubenhofer, Marc Kupietz: Visualisierung 
sprachlicher Daten. Heidelberg: Heidelberg University Publishing, 2018 
DOI: https://doi.org/10.17885/heiup.345.474 


92 — Mark Richard Lauersdorf 


Genitive II (Partitive) Genitive I 


-—---0 


Nominative O——ə ->—  .. O Accusative marginality 


Prepositional II z a a 
(Locative) ze 2 ZO Preprositiona I 
z Z 7 : 
7 7 quantification 


O= - 


Instrumental © 


Dative 


t+ 
directionality 


Figure 1: Mel’€uk’s 1983 illustration of the Jakobson cube model, adapted 
from Jakobson 1958 (image from Chvany 1987, 199). 


The purpose of Jakobson’s cube is, of course, to provide a visual representation of 
a complex set of information.’ Specifically it seeks to provide a maximally informa- 
tive, and at the same time clearly interpretable, visualization of a theoretical model 
describing a set of features and the relationships between them in a morpho-syn- 
tactic system. The interpretive value of the cube visualization of this theoretical 
model becomes clearer when we consider it alongside an example (Figure 2) of one 
alternative way that these features and their interrelationships can be presented. 

The intent here is not to say that the grid presentation in Figure 2 provides no 
meaningful access to the theoretical model and is of no assistance in the analysis 
of the information contained in the model, but when compared with the cube 
visualization in Figure 1, it is clear that we perceive the theoretical model and its 
information in a different way in each of the two visual representations. 

This specific example of linguistic visualization - Roman Jakobson’s Russian 
case theory represented as a cube - serves in the following discussion as our 
point of entry into a more broad-ranging examination of linguistic visualization 
under the general notion of objet d’art. 


2 The practice of providing visual representations of complex information is certainly 
not unique to academic presentation of scientific research; it is also found quite read- 
ily in everyday use, with many types of visual illustrations employed to explain diffi- 
cult concepts or rich information. The value of this everyday use of visualizations is 
clearly reflected in the common expression “a picture is worth a thousand words”. 
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Figure 2: Neidle's 1982 grid for the eight-case system in Russian. Note that 
Neidle uses “ascriptive” for “directional” (image from Chvany 1987, 218). 


Jakobson's cube as objet d'ort 


In her discussion of graphic representations of linguistic systems, Chvany states: 
“[...] each geometric figure has its own semantics; it can be ambiguous (have 
homonyms), and it can have approximate synonyms, just as words do. The 
meanings of figures, governed by principles of visual perception, necessarily 
combine with the meanings assigned by the linguist” (1987, 208). Put another 
way, graphic representations themselves carry meaning - meaning that is cor- 
related with other graphic representations, and that is sometimes ambiguous 
or interpretable in multiple ways, i.e., visual representations are embedded in 
systems of meaning, governed in part by “principles of visual perception”. So, 
it can be argued that the cube itself, as a geometric figure, carries meaning and 
has the potential for variation and ambiguity in its meaning, as interpreted by 
individual observers - some might see one thing and others might see something 
else. Consider the illustrations in Figure 3 and Figure 4 by Joseph Jastrow (1899) 
of variant perceptions of the cube.’ 


3 For Figure 3, a version of the “Necker cube” (Necker 1832), Jastrow (1899) describes 
the multiple interpretations as follows: “Figs. 13a and 13b are added to make clearer 
the two methods of viewing Fig. 13. The heavier lines seem to represent the nearer 
surface. Fig. 13a more naturally suggests the nearer surface of the box in a position 
downward and to the left, and Fig. 13b makes the nearer side seem to be upward and 
to the right. But in spite of the heavier outlines of the one surface, it may be made to 
shift positions from foreground to background, although not so readily as in Fig. 13” 
(308). “The presence of the diagonal line makes the change more striking: in one posi- 
tion it runs from the left-hand rear upper corner to the right-hand front lower corner; 
while in the other it connects the left-hand front upper corner with the right-hand 
rear lower corner.’ (309). For the possible interpretations of the stacked cube illustra- 
tion in Figure 4 he provides the following description: “If viewed in one way - the 
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Figure 3: Jastrow's illustration of variation in perception of a cube (1899, 308). 


This is not unlike our experiences when observing artistic designs and works of 
art. Each of us potentially sees something different first, or has a different inter- 
pretation of what is seen; and sometimes the longer you look at it, the more you 
see one thing instead of another or favor one interpretation over another; or the 
more often you look at it, the more you see different aspects of it that allow for 
different interpretations, or perhaps the less sure you are of what you actually 
see. As illustration of this effect, consider whether the artistic sketch in Figure 5 
depicts the image of a rabbit or a duck.* 

Jastrow, in summarizing his observations concerning the phenomenon of 
variant perceptions/interpretations of geometric shapes and artistic designs, 
including those illustrated in Figures 3, 4, and 5, notes: 


All these diagrams serve to illustrate the principle that when 
the objective features are ambiguous we see one thing or 
another according to the impression that is in the mind’s eye; 
what the objective factors lack in definiteness the subjective 
ones supply, while familiarity, prepossession, as well as other 
circumstances influence the result. These illustrations show con- 
clusively that seeing is not wholly an objective matter depend- 
ing upon what there is to be seen, but is very considerably a 


black surface forming the tops of the blocks - there seem to be six ... ; but when the 
transformation has taken place and the black surfaces have become the overhanging 
bottoms of the boxes, there are seven ...” (310). 

4 This classic image was first published on page 147 of the 23 October 1892 issue (issue 
no. 2465) of the German magazine Fliegende Blatter (I. Schneider, ed. München: Braun 
& Schneider) with the wording “Welche Thiere gleichen einander am meisten? Kanin- 
chen und Ente? (Which animals resemble each other the most? Rabbit and duck.) See 
http://digi.ub.uni-heidelberg.de/diglit/fb97/0147 for a digital facsimile edition of the 


issue containing the original image. 
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Fig. 17. 


Figure 4: Jastrow's illustration of variation in perception of a stack 
of cubes (1899, 311). 


Figure 5: Jastrow's adaptation of the rabbit - duck illusion (1899, 312). 
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subjective matter depending upon the eye that sees. To the 
same observer a given arrangement of lines now appears as the 
representation of one object and now of another; and from the 
same objective experience, especially in instances that demand a 
somewhat complicated exercise of the senses, different observers 
derive very different impressions [emphasis added, MRL] (1899, 


310-311). 


From the discussion above, the conclusion can be drawn that the cube itself 
(or any other visual illustration), like a work of art (an objet d’art), is open to 
potential variant perceptions that may broaden the possible range of observers’ 
interpretations of the visualization (and the data it represents) well beyond any 
specific meaning assigned to it by the person using the cube (or other graphic 
illustration) as a visualization of their data and information. 

Chvany in her continued discussion of visual representations of linguistic 
systems also points us in the opposite direction to the possible constraining 
influence of visualizations, describing the potential for a visualization to acti- 
vate only a specific interpretation or range of interpretations of the data and 
thus ultimately influence the direction of the linguistic theory derived from the 
interpretation. “Moreover, the graphic representation, be it matrix, tree, box dia- 
gram or polyhedron, may, through its own semantics, influence the perception 
of the modeled system. As Stewart (1976) points out in her Introduction, ‘the 
relationship of analogy between figure and datum, between design and meaning, 


33 


is what enables graphic representation to influence linguistic theory” (Chvany 
1987, 208). 

Thus, once again, as with objets d’art, where a specific artwork may become 
for many observers the standard interpretation (a sort of iconic representation) 
of the subject it is depicting, the specific form of a data visualization has the 
potential to narrow our perception and interpretation of the data. In our exam- 
ple of Jakobson’s cube, the fact that he visualized his case theory with a cube 
could lead us to favor certain interpretations of the data, and it could ultimately 
become the primary, or even the only, way in which we see the data and con- 
ceptualize it theoretically, causing us to overlook, or even exclude, other possible 
theoretical interpretations. 

Chvany highlights this potential constraining factor of a chosen visualiza- 
tion in the specific case of Roman Jakobson’s cube representation of the Russian 
case system: “The 1958 model ... expands the prism, closes the unfinished cube, 
answers its questions, removes choice ... the cube is a nonnegotiable model” (1987, 
215 — emphasis added MRL), adding further: 
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Even those of us who disagree with one or another aspect of the 
cube model have used some of its component claims, whether 
as supporting argument, stipulation or axiom. For there are 
occasions where it is possible to use one or another part of the 
model, without regard - or need - for internal consistency of 
the whole. [...] The cube’s unfalsifiable claims, while undesir- 
able in a theory, do not interfere with these limited but useful 
applications, so there is little motivation to change the model. 
[...] In the area of applications, it’s ‘love it or leave it’. The sys- 
tem is so tight, it hangs together so well, that adjusting one 
opposition would entail changes in the rest, destroying the 
parts that one cannot disagree with (Chvany 1987, 216-217 — 
emphasis added MRL).° 


In the end, a specific visualization could constrain the possible interpretations 
of a dataset or model to the point that we focus on the visualization rather 
than on the data or model that it represents, and we objectify the visualization 
thereby fixing (locking in) the form or type of that visualization, considering 
it immutable/unchangeable; and we then interpret all new data and arguments 
through that fixed form - the visualization becomes an iconic representation 
of the underlying information. This should cause us to wonder, with Chvany, 
“But the question remains, is the cube [or any other given visualization] the best 
possible icon of the system?” (1987, 218). We will return to this question of “best 
possible icon” in the discussion further below. 


2. Tasks of linguistic visualizations 
Elucidation and elaboration of theoretical models 


The preceding discussion, of Roman Jakobson’s cube visualization for his theory 
of the Russian case system, provides a good example of one of the common tasks 
for which linguistic visualizations are deployed - the elucidation and elabora- 
tion of theoretical models. A long-standing example of the use of visualizations 
to represent theoretical frameworks is the use of tree diagrams to illustrate the 
concept of genetic relatedness among languages (see Figure 6). 


5 Chvany later adds to these thoughts a direct objet d'art reference, “The cube’s take-it- 
or-leave-it, love-it-or-leave-it fate resembles the history of an art object more than the 
normal development of a scientific model” (1987: 222). 
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Figure 6: Schleicher’s Stammbaum visualization of the genetic relatedness of 
the Indo-European languages (1861, 7). 


IP 
er s 
NP l 
i BE 
| I [-Pst] T 
N V 
He V PP 
pe | 
V NP P 
ee 
studies N P NP 
noe a 
| at ‘i i 
linguistics the i 
university 


Figure 7: Syntax tree illustrating X-bar theory (https://commons.wikimedia. 
org/wiki/File:Xbarst1.svg - accessed 09 October 2016). 
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Figure 8: Tree visualizing HPSG theory (https://commons.wikimedia.org/wiki/ 
File:Head-subj-tree.png - accessed 09 October 2016) 
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Figure 9: McMahon and McMahon's unrooted Indo-European tree generated 
on the basis of quantitative statistical analysis of relatedness data (2005, 101). 
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Figure 10: Labov, Ash, Boberg’s map of monophthongization before voiceless 
consonants in North American English (2006, 129). 


Of course, tree structures have also become a highly common visualization tool 
in other areas of linguistics as graphic representations of theoretical constructs 
as seen in Figure 7 and Figure 8. 

Technological advances (most recently digital) in the tools and instruments 
available to us have allowed us to apply more sophisticated visualization tech- 
niques to existing theoretical models, checking those models and also refining 
and elaborating them in ways not before possible (or accomplished only with dif- 
ficulty). Figure 9 provides an example of statistical and computational advances 
in tree diagrams for visualizing linguistic relatedness. 


Analysis and interpretation of datasets 


In addition to their use in elucidating and elaborating theoretical models, visu- 
alizations are commonly deployed on linguistic datasets with the hope of aiding 
the analysis of the data and the interpretation of the results of that analysis. One 
common example of this use of visualizations for data analysis and interpreta- 
tion is the geospatial plotting of dialect data as seen in Figure 10. 


Linguistic Visualizations as objets d’art? — 101 


Like tree diagrams to visualize linguistic relatedness, geospatial representation 
of dialect data has a long-standing tradition in linguistics (see Figure 11 and 


Figure 12). 


ATLAS LINGUISTIQUE DE LA FRANCE Be | 


—— 


Figure 11: Gilli&eron and Edmont’s (1902-1910) Atlas linguistique de la France, 
fascicle 1, map no. 11 “AGNEAU, AGNEAUX, AGNELLE; autres formes” (http:// 
cartodialect.imag.fr/cartoDialect/seadragon.jsp?carte=CarteALF0011&width=4 
852&height=5912 or http://cartodialect.imag.fr/cartoDialect/download/Carte- 
ALFO011.tif - both accessed 02 July 2017). 
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Figure 12: Wenker's (1888-1923) Sprachatlas des Deutschen Reichs, northeast 
sector map for “Kleider” (http://www.graphicscience.de/assets/images/DSA- 
Kleider_NO_udl-02-1000P.jpg - accessed 09 October 2016). 


Just as theoretical models have benefited from advances in visualization tools 
and techniques, technological advances have provided ever more powerful tools 
for analysis and interpretation of data, illustrated in Figure 13, again on the 
example of geospatial mapping. 

Technological advances have also made visualizations possible in areas where 
they were not possible before, where the visualizations themselves actually 
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Erstellt mit www.regionalsprache.de 


Figure 13: Full information for “Kleider” from Wenker's Sprachatlas des 
Deutschen Reichs, all sectors displayed “stitched together” in the REDE digital 
environment (www.regionalsprache.de - generated 18 September 2016). 


provide for our analyses and interpretations new complementary and supple- 
mentary information previously not available (see Figure 14 for an example’). 


6 As explained by Kevin McGowan (personal communication): “A common problem 
in phonetics and related fields is the need to visualize many vowel measurements 
together in a comprehensible way [the actual vowel measurement data also available 
due to technological advances — MRL]. Simply plotting these measurements as indi- 
vidual points can be uninformative or even misleading. Christian DiCanio of SUNY 
Buffalo proposes (2013) this novel method of using R (R Core Team 2016) with the 
ggplot package (Wickham 2009) to instead present the distribution of the vowel, using 
kernel density estimation to reveal patterns in the measurements that were previ- 
ously difficult or impossible to discern. [In Figure 14] the distribution density plot 
reveals bimodal distributions for several vowel quality categories suggesting that a 
dimension other than simply the Fı (height) or F2 (backness) vowel formant measures 
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Figure 14: The classic vowel measurements of Peterson and Barney (1952), re- 
plotted using kernel density estimation to enhance clarity (image from Kevin 
McGowan, personal communication). 


Summarization and presentation of research outcomes 


A third general area in which visualizations have become commonplace in lingu- 
istic research is as a means of summarizing for presentation the outcomes of data 
analysis and interpretation, illustrating the results of an investigation. Similar 
to visualizations of theoretical models, these visualizations generally serve to 
render tables of numbers, lists of linguistic data, or extended prose into a visually 
digestible form (see Figure 15 and Figure 16). 

A different, but familiar, example of the use of visualizations to summarize 
research results can be seen in Figure 17. 


can be expected to explain much of the observed variation. Indeed, replotting these 
data separately by speaker gender results in largely unimodal vowel distributions 
with much less overlap across vowel quality categories”. 
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morphological unit | region pattern” no pattern | insufficient 
data 
1) Ist sg. n-p. x 
thematic verbs x 
I, I, M X” x 
X 
2) instr. sg. masc. X 
& neut. nouns X 
X 
X 
3) dat. pl. masc. X 
& neut. nouns X 
X 
X 
4) instr. pl. masc. & x 
& neut. nouns x 
x 
xi 
5) loc. pl. masc. x 
& neut. nouns x 
x 
X 


morphological unit | region pattern” no pattern | insufficient 
data 
6) gen./dat./loc. x 
sg. fem. hard- PA X 
stem adjs. X 
x 
7) loc. sg. masc. x 
& neut. hard- x! 
stem adjs. x 
9” x 
8) dat./loc. 2nd (X X 
sg. & refl. x’ 
pronouns X 
X x 
9) 1st sg. pres. & x 
of *byti x 
x 
x 


“Throughout this table, a parenthetical “(X)” indicates a possible 
alternative to “X”. An explanatory note describes the nature of the 
alternative. ` This is an extrapolated interpretation. The data set is too 
small to mark the result as certain. ‘This result would benefit from 
verification with additional data. Possible tendency toward region- 
wide patterning of -ej ending. 


Figure 15: Summary table showing the distribution of patterns of morpholog- 
ical variants across geographical space with measures of certainty and type of 
patterning (Lauersdorf 2010, 160-161). 
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m = no consistent patterning 


Figure 16: Geospatial visualization of the information in Figure 15 (Lauersdorf 
2010, 163). 
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Figure 17: William Labov's schematic overview of the Southern vowel shift in 


North American English (http://www.ling.upenn.edu/phono_atlas/ICSLP4.html 
- accessed 09 October 2016). 


Figure 18 and Figure 19 provide examples of visualizations that present research 
outcomes in geospatial and tree form once again. 


er 
oe 


Figure 18: Labov, Ash, Boberg’s overview of the major dialect divisions in 
North American English (2006, 148). 
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Figure 19: Labov, Ash, Boberg’s schematic tree illustrating their “hierarchical 


structure of North American dialects” (2006, 147). 


What visualization accomplishes in these tasks 
In each of the three general tasks outlined above, the end goal of the use of lin- 
guistic visualization is the same: to gain insight and to facilitate/improve results. 


— theoretical models — gain insight into and provide better comprehension 


and testing of the model 
— data analysis — gain insight into and provide better analysis and interpre- 


tation of the data 
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— research outcomes — gain insight into and provide better comprehension 
and testing of the outcomes 


If there is no additional insight provided by a given visualization, or if there is 
no facilitation or improvement of the theoretical model, the data analysis, or 
the research results, then we might question the use of the visualization. We 
might also question the use of a given visualization in the context discussed 
earlier where we have perhaps locked in a specific form or type of visualization, 
considering it immutable/unchangeable, and we then interpret all new data and 
arguments through that fixed form whereby the visualization becomes an iconic 
representation of the underlying information. Repeating Chvany’s cautionary 
statement, “But the question remains, is the cube [or any other given visualiza- 
tion] the best possible icon of the system?” (1987, 218). 


Jakobson's cube as cautionary tale 


In the same way that the cube has become the visualization of Jakobson’s Rus- 
sian case theory, the different classic visualizations presented above to illustrate 
theoretical models, data analyses, and research outcomes have become iconic 
for the information that they represent. We all recognize, without any explana- 
tion or clarification, how we are to interpret tree diagrams, dialect maps, syntax 
trees, and vowel shift diagrams because they have become standard visualiza- 
tions for the information that they illustrate. Chvany states about Jakobson’s 
cube: “The controversies surrounding the cube seem strangely out of proportion 
to its importance as a theoretical construct. [...] There is nothing sacred about the 
cube” (1987, 218 — emphasis added, MRL). In the same way, we would be wise 
to question ourselves regarding some of the standard visualizations that have 
become iconic in our areas of study. Have we objectified these visualizations 
thereby fixing (locking in) their form and rendering them immutable/unchange- 
able (iconic)? And do we interpret all new information and arguments through 
these fixed forms, potentially focusing, in our subsequent analyses, more on the 
visualization than on the information behind it? And what are we missing if we 
are, in fact, doing this? 
In the iconicity of accepted, standard visualizations: 


— we are potentially missing some of the data or some of the relations 
between the data; 

— we are potentially not allowing for all the possible data combinations; 

— we are potentially not seeing all the angles; 

— we are potentially missing opportunities to try different techniques. 
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Chvany provides discussion and illustration of several of these points in regards 
to the Jakobson cube visualization (1987, 218-219), exemplified here in Figure 20 


and Figure 21. 
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Figure 20: Chvany's alternative visualization of Jakobson's cube (illustrating 
our notion of viewing from q different angle) giving more emphasis to the 
“central-peripheral distinction” of the theory (1987, 218). 
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Figure 21: Chvany's further alternatives to Jakobson's cube (illustrating our 
notions of viewing from q different angle and showing different relations bet- 
ween the structures) (1987, 219). 
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In discussing alternative visualizations of the Russian case system (from differ- 
ent angles or showing different relationships) Chvany states: “The drawing is 
two-dimensional, and the three-dimensional illusion is not needed to represent 
the system ..” (1987, 218), and “Jakobson actually refers to hierarchization (1958, 
175) .... One weakness of the cube figure as an icon of the Russian case meanings 
is that its dominant reading is ahierarchical. A hierarchy is better represented, 
and tested, in a tree-shaped model” (1987, 219). This again speaks directly to one 
of our cautions above that, in locking in one iconic visualization, there is the 
potential for missing some of the relations between the data. 


3. Applying visualizations to linguistics 
A contextualization from historical sociolinguistics 


Much of the work that I do in the field of historical sociolinguistics involves 
complex situations of historical language contact with: 


— a high number of language varieties in contact; 


no identified standard language or prestige variety; 


a multitude of geographical and political borders; 
— quickly changing socio-cultural, socio-political, socio-economic contexts. 


What I seek to investigate about those situations is: 


— what is the impact of the language contact on the structures of the language 
varieties in contact? 

— what patterning of structural features can be seen across the varieties in 
contact (is there dialect leveling, koinéization, etc.)? 

— if patterning is detected, what type, degree, location, domain, etc. does it 
demonstrate? 

— can specific socio-historical factors be correlated to the structural 
patterning? 


Given that this work is being performed for historical language periods, there is 
the issue of the so-called “bad data problem”, made famous by Labov in his state- 
ment that “... [h]istorical linguistics can ... be thought of as the art of making the 
best use of bad data” (1994, 11). Importantly for our discussion here, this is often 
re-cast by historical linguists as a problem of “imperfect” data (Joseph and Janda 
2003, 14), or “making the best use of the data available” (Nevalainen and Raumo- 
lin-Brunberg 2003, 26). Given that the available data is “imperfect” (i.e., limited, 
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fragmentary, or incomplete), it is imperative to gather as much of it as possible 
for a given investigation, from all interrelated sources, linguistic and socio-his- 
torical — in other words, it is imperative to use all the data! This is especially 
true for the type of investigation that I described at the beginning of this section 
involving historical language analysis through data-driven pattern identification 
and correlation with socio-historical factors. At this point it is important to note 
that, while the discussion in the remainder of this section derives from a specific 
application in historical sociolinguistics (as described above), I believe that the 
arguments presented are applicable to any context of visualization in linguistic 
analysis. 


Use allthe data! 


As stated, historical data (linguistic or otherwise) tends to be “imperfect” data 
(i.e., limited, fragmentary, incomplete), and generally speaking, the earlier the 
time period under investigation, the “more imperfect” the data. Thus, if we hope 
to achieve generalizable results from historical sociolinguistic investigations, it 
becomes necessary to gather as much of the data as possible from all interre- 
lated sources. Even when dealing with contemporary linguistic data, gathered 
in the field, in the lab, or in a corpus, it can perhaps never be guaranteed that 
we are working with “perfect” data, i.e., data that is not limited, fragmentary, or 
incomplete in some respect. In this way, the call to “use all the data” certainly has 
broader application beyond historical sociolinguistics. 

Logically, if you use all the data, you have to process all the data in your 
analysis. And if you have to process all the data, you will very likely need to use 
statistics and visualization for data analysis. The need for statistical and visual 
assistance in analysis can be driven by the size of the dataset, wishing, for exam- 
ple to isolate relevant information in a large dataset or to determine viability and 
significance in a small dataset. It can be driven by the multifactored nature of the 
dataset with the interaction of many different data types. It can be driven by the 
type of information that we wish to extract from the dataset (e.g. correlational 
information about multiple variables). 

In all of this I believe that there is an implied, and very important, set of cor- 
ollaries regarding data visualization: 


— Use all the data. 

— If you use all the data, view all the data. 

— If you view all the data, view all the combinations. 
— If you view all the data, view all the angles. 

— If you view all the data, use all the techniques. 
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It should be mentioned that I am working through the rationale and the argu- 
ments here on the basis of the visualization task of data analysis and interpre- 
tation, but the basic tenets of these propositions are also easily transferable to 
visualization for the elucidation and elaboration of theoretical models and to 
visualization for the summarization and presentation of research outcomes. 


View all the data 


Often we decide directly, or the visualization technique that we choose decides 
indirectly for us, which subsets of the data we end up viewing; and in both cases, 
the power of the visualization is limited by the decisions made about which data 
subsets to view. If, in performing our linguistic visualizations, we make a priori 
decisions, for whatever reasons, concerning the subset(s) of the data that should 
be visualized, we run the risk of potentially missing patterns in the overall data- 
set. Even in very large datasets, where an initial visualization of the entire data- 
set could be as dense and opaque to interpretation and analysis as the raw data- 
set itself, the use of visualization could have the potential to show subdivisions 
in the dataset that a priori pre-visualization decisions would miss. It is necessary 
to view all the data. 

A first reaction to Figure 22 might be that, in viewing all the data, the over- 
all amount of data, and the various parameters ascribed to it, create a visualiza- 
tion that is difficult to parse for the purposes of data analysis. However, within 
the specific framework of the investigation, the authors of the study note, on 
the contrary, that “At first sight it is apparent that the structure of the city does 
not only reflect the political dimension discussed earlier: Figure 7 [Figure 22 
here] clearly reveals the segregation into different social classes. Some actors 
only appear in combination with very few events whereas others are highly 
integrated in the center of the structure. In the center of events we find the 
craftsmen, the clerks, the merchants, and the educated bourgeoisie, whereas 
the vintners and the workers are basically linked to the periphery of the sys- 
tem.” (Krempel and Schnegg 1999). This conclusion would likely not have been 
possible without viewing all the data, and it allows for potential subdivision 
of the dataset for deeper analysis on the basis of having specifically viewed all 
the data. 

Relatedly, if, in performing our linguistic visualizations, we use only the 
iconic standard visualizations commonly employed for the specific type of data 
we are analyzing, we might potentially miss some of the data or some of the 
relations between the data, either through our preconceived notions of what the 
visualization should show, or through actual restrictions on the data that the 
visualization can accept, or the type of relations it can show. (We will return to 
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Figure 22: Krempel and Schnegg's (1999) visualization of the social landscape 
of Esslingen, Germany, 1848/49. 


this notion of chosen visualization techniques disallowing a view of all the data 
in the section on “using all the techniques”. 


View all the combinations 


As mentioned above, very large datasets have the potential, if viewed with all 
data points and parameters, to produce highly complex visualizations that may 
be largely impenetrable to interpretation, so “viewing all the data” at once may 
not be of much assistance in data analysis - the visual density may be too great, 
or there may be mixed types of data that are difficult to bring together in a single 
visualization. On the other hand, in breaking the data down into subsets to assist 
in visual analysis, a priori assumptions about the parts of the data that should 
be combined and the parts that should be excluded in any given visualization 
will potentially cause us to miss patterns in our analysis because we perhaps did 
not bring the appropriate parts of the data together, in our a priori selection, to 
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adequately reveal the correlations that might exist. In cases where it becomes 
procedurally/methodologically necessary to view the data in subsets, it becomes 
necessary to view all the combinations. 

The risk of not viewing all the combinations, and thereby potentially missing 
patterns in the analysis, also arises if we rely exclusively on the use of iconic 
standard visualizations. If we always apply only the same standard visualiza- 
tions to the data we are working with, we are potentially missing some of the 
combinations of the data either through our preconceived notions of what com- 
binations these visualizations should show, or through actual restrictions on the 
data combinations the visualization technique can accept, or the types of combi- 
nations it can show. 


View all the angles 


A simple graphic illustration will demonstrate the importance of considering 
multiple views or angles of the relationship between data points in a visualiza- 
tion. Consider a representation of the connections between data points plotted 
in a two dimensional square. It is a square when viewed head-on, and a different 
square (but still a square) from behind (Figure 23). 


C d d C 


Figure 23: Data points “a”, “b”, “c”, “d” plotted as a square, 
viewed from front and back. 


From the top it is a horizontal line, and from the bottom it is a different horizon- 
tal line (Figure 24). 
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Figure 24: Data points “a”, “b”, “c”, “d” plotted as a square, 
viewed from top and bottom. 
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From one side it is a vertical line, from the other side a different vertical line 
(Figure 25). 


Figure 25: Data points “a”, “b”, “c”, “d” plotted as a square, 
viewed from left and right sides. 


From a front angle it is a quadrilateral with two different types of relations 
between the points, depending on the angle (Figure 26). 
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Figure 26: Data points “a”, “b”, “c”, “d” plotted as a square, 
viewed from left and right front angles. 


We can appreciate already from this simple demonstration (that does not nearly 
exhaust the possible angles of view on a square) that the interpretation and anal- 
ysis of data in any given visualization could be considerably affected by the angle 
of view on the visualization. It thus becomes necessary to view all the angles, or 
at the very least, it is necessary to view more than one angle, in order to be aware 
of the effect that the angle of view might have on our understanding of the data. 
An even greater appreciation for this notion of viewing all the angles can be 
achieved by adding just one additional dimension to the square and considering 
the cube from multiple angles (Figure 27 - rotated here only oo degrees, only on 
its central vertical axis). 

The question must then be posed: what are we missing in the visualizations 
of our data, (especially in our iconic standard visualizations) if they are static, 
with no interactive or dynamic component that allows for different views on 
the data? 


Linguistic Visualizations as objets d'art? — 117 


g 
N 


vv 
A. 


Figure 27: Cube visualization rotated 90 degrees on its central vertical axis 
(http://www.traipse.com/hypercube/ - accessed 09 October 2016). 


Use all the techniques 


Earlier in this text, and particularly in each of the last three sections, part of the 
discussion has revolved around the limitations of using only the visualization 
techniques that have become commonplace and common practice (“iconic”) in 
the field in which any individual investigation is anchored. One way to escape 
this iconicity problem, where our reliance on iconic standard visualization tools 
and techniques causes us to potentially not use all the data, not view all the data, 
not view all the combinations, or not view all the angles, is to use all the tech- 
niques (or at least consider more of the techniques). Of course, there are certain 
limitations, both methodological and practical, that often prevent us from truly 
testing all of the visualization techniques available. Specific data types match 
with specific statistical models, and other data types match with other statistical 
models; and some data types match better with certain visual representations 
than with others. But trying something out of the ordinary (i.e., a non-iconic or 
non-typical visualization) may yield extraordinary results. 

It should be kept in mind here that the call to use all the techniques does not 
exclude the iconic standard visualizations, but rather begins with them and then 
goes beyond them. The argument here is that employing non-typical visualiza- 
tions, in addition to the iconic standard visualizations, provides the potential 
for additional scientific gains. Bubenhofer (2018) echoes this, stating: “In order, 
however, to allow for innovation in the area of scientific visualization, this canon 
of disciplinary visualization practices must constantly be called into question” 
(S. 45). As just one example of the insights to be gained from using innovative 
techniques beyond the iconic standard visualizations in a given field, Montgom- 
ery (2012) convincingly demonstrates that the visualization of geospatial data in 


7 “Um aber Innovation im Bereich wissenschaftlicher Visualisierung zu ermöglichen, 
muss dieser Kanon disziplinärer Visualisierungspraktiken immer wieder hintergan- 
gen werden” 
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a graph form allows for analysis and interpretation beyond what is possible with 
the original geospatial representation of the data (see Figure 28 and Figure 29).* 


Linguistic visualizations as objets d'art? 


Interestingly, the deliberate use of non-typical visualization tools and techniques 
to allow the observer to see something not ordinarily seen, or not otherwise 
perceptible, is a feature of objets d'art as well. Different works of art allow us 
to perceive the world in different ways by presenting the “information” of the 
world in different combinations, from different angles, using different media and 
techniques (i.e., different types of “visualizations”), and thus works of art often 
give us new appreciation, understanding, and insight into the information that 
they are portraying, even if we have already seen the same information repre- 
sented in other works of art (i.e., other “visualizations”) or in its original form in 
the world (as “raw data”). 

Of course, it was not the intent of this discussion to examine the viability of 
a direct equation between linguistic visualizations and artworks, nor was the 
intent to determine whether linguistic visualizations demonstrate some sort of 
creative, interpretive, esthetic, or other equivalency with artworks. As stated at 
the outset, the concept of objet d'art served here as a notional category, deployed 
to draw attention to a range of issues that must be considered in the use of visu- 
alizations in linguistic research. The use of visualization tools and techniques 
has the potential to provide new insights and to facilitate/improve outcomes in 
linguistic theories, analyses, and results. As we view all the data, all the com- 
binations, and all the angles, using all the techniques, we must simply remain 


8 Montgomery’s explanation of the maps in Figure 28: “The data gathered for the 
North-South divide question for each location in Study 1. Each line drawn by respon- 
dents is included on the three maps: (a) respondents from Carlisle (67 lines drawn); 
(b) respondents from Crewe (61 lines drawn); (c) respondents from Hull (72 lines 
drawn)” (2o12, 652). This geospatial data was then converted to graph form (Figure 
29): “Consequently, ImageJ (Rasband 2011 [now 2016 — MRL]) was used to interrogate 
the data more closely. The programme includes a tool that permits analysis of image 
luminance, which is well suited to investigating the placement of North-South lines 
as a greater density of lines reduces luminance. ImageJ creates a 3D graph for each 
map with luminance interpreted on the z-axis of the graph. The luminance value is 
inverted (so lesser luminance appears as a spike on the graph) and a smoothing tech- 
nique applied to the data which removes some of the individual variance and permits 
the investigation of greatest agreement. The 3D image is then rotated in order that 
a 2D ‘slice’ of the image viewed from north to south can be captured. This 2D ‘slice’ 
allows a user to examine how far north or south North-South lines have been placed 
by respondents in conjunction with the composite line maps” (2012, 653). 
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Figure 28: Montgomery's maps showing geospatial locations of north/south 
dividing lines drawn for a perceptual dialectology study of England 
(2012, 652). 
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Figure 29: Montgomery's graph showing relative locations and density of 
geospatial bundling of north/south dividing lines drawn for a perceptual 
dialectology study of England (2012, 653). 
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mindful of the different ways in which visualizations have the potential to not 
only show us more, but also influence what we see. 
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Jana Pflaeging 
Zur Ästhetisierung 
linguistischer Wissensvermittlung 


Abstract Dieser Beitrag argumentiert dafür, dass die bis dato sprachdomi- 
nierten Kommunikationsmuster des linguistischen Wissensaustausches nicht 
zwingend im Forschungsgegenstand selbst begründet liegen, sondern vor allem 
in der tradierten Annahme, dass sich Sprache besser zur treffenden Formu- 
lierung abstrakt-theoretischer Gedanken eigne. Bildliche Sprache und Meta- 
phern waren seit jeher Bestandteil geisteswissenschaftlicher Denkweisen und 
Rhetorik. Ich möchte hier schrittweise aufschlüsseln, wie sie zum wertvollen 
Ausgangspunkt der Erzeugung komplexer Visualisierungen werden können, 
die den Musterbruch in einem bedeutungspotenzierenden - und kommunika- 
tiv völlig natürlichen - multimodalen Gesamttext suchen. Um zu zeigen, wie 
mittels bewusster multimodaler Brüche mit traditionell eher sprachdominanten 
Kommunikationsmustern der Linguistik epistemisches und auch motivationales 
Potenzial entstehen kann, beginne ich mit einem Exkurs zu „Ästhetik“ und 
„Asthetisierungsprozessen“ und führe das Konzept der „wilden Semiose“ ein. 
Anschließend stelle ich meine theoretischen Überlegungen zur Visualisierung 
linguistischer Theorien vor und stelle ihre Tauglichkeit im Hinblick auf lingu- 
istische Vermittlungskontexte am Beispiel der Theorie der konzeptuellen Meta- 
pher, aber auch in den Bereichen der Textlinguistik bzw. Gesprachsforschung, 
unter Beweis. Ich hoffe nicht zuletzt, auf diese Weise zeigen zu können, wie 
gewinnbringend es sein kann, die kommunikativen Praktiken des Forschens 
und Lehrens im eigenen Fach selbstreflexiv zu hinterfragen und gezielt nach 
neuen Wegen der Wissensvermittlung zu suchen. 


1. Einleitendes 


Verengt man den Blick etwas und überfliegt die ersten Seiten dieses Beitrags, 
so verdichten sich die Zeichen zu einem für Textsorten der geisteswissenschaft- 
lichen Wissensvermittlung typischen Muster: In Kapitel strukturiert verläuft 
verbale Sprache in den genormten Bahnen einer akademischen Publikationspra- 
xis. Nur selten wird mit diesen logozentrischen Mustern gebrochen, um bei- 
spielsweise das kommunikative Potenzial von Visualisierungen und anderen 


Erschienen in: Noah Bubenhofer u. Marc Kupietz (Hrsg.): Visualisierung 123 
sprachlicher Daten. Heidelberg: Heidelberg University Publishing, 2018 
DOI: https://doi.org/10.17885/heiup.345.474 


124 — Jana Pflaeging 


alternativen Darstellungsformen zu erproben. Die Geisteswissenschaften - und 
die Linguistik im Besonderen - gelten noch immer als „[e]her [...] bilderscheu“ 
(Ballstaedt 2012: 17; siehe Pflaeging 2013; Hauser et al. 2016). Ein Grund hierfür 
ist vermutlich, dass verbale Sprache eine treffende Formulierung gerade theore- 
tischer, d. h. abstrakt-konzeptueller Gedanken, scheinbar am besten unterstützt 
(Ballstadt 2012: 17). 

In diesem Beitrag möchte ich dafür plädieren, dass die bis dato sprachdo- 
minierten Kommunikationsmuster des linguistischen Wissensaustausches vor 
allem in diesen tradierten Annahmen begründet liegen, jedoch nicht zwin- 
gend im Forschungsgegenstand selbst. Bildliche Sprache und Metaphern waren 
seit jeher Bestandteil geisteswissenschaftlicher Denkweisen und Rhetorik. Ich 
möchte nachfolgend aufschlüsseln, wie sie zum wertvollen Ausgangspunkt einer 
Erzeugung komplexer Visualisierungen werden können, die den Musterbruch 
in einer bedeutungspotenzierenden — und kommunikativ völlig natürlichen - 
Multimodalität (siehe Stöckl 2016) suchen. Um zu zeigen, wie mittels bewuss- 
ter multimodaler Brüche mit traditionell eher sprachdominanten Publikations- 
mustern der Linguistik epistemisches Potenzial entstehen kann (Kapitel 2.1), 
scheint es mir nützlich, meine Argumentation mit einem Exkurs zu Ästhetik 
und Ästhetisierungsprozessen anzubahnen und das Konzept der „wilden Semi- 
ose“ (Assmann 1988) einzuführen. Anschließend werde ich meine theoretischen 
Überlegungen zur Visualisierung linguistischer Theorien vorstellen (Kapitel 2.2) 
und ihre Tauglichkeit im Hinblick auf linguistische Vermittlungskontexte am 
Beispiel der konzeptuellen Metapherntheorie (siehe Grafiken N° 01 bis 04), aber 
auch in den Bereichen der Textlinguistik bzw. Gesprächsforschung, unter Beweis 
stellen (N° 05 und 06). 

Ich hoffe nicht zuletzt, mit diesem Beitrag zeigen zu können, wie gewinnbrin- 
gend es sein kann, die kommunikativen Praktiken des Forschens und Lehrens im 
eigenen Fach selbstreflexiv zu hinterfragen und gezielt nach neuen Wegen der 
Wissensvermittlung zu suchen (siehe aber Schmitz 2004; Kuiper 2011; Pflaeging 
& Schildhauer 2015; Pflaeging 2015a; Pflaeging & Brock 2017; sowie Bestrebun- 
gen in anderen akademischen Disziplinen in Huber et al. 2014). Meines Erach- 
tens setzt der vorliegende Band in dieser Hinsicht wertvolle Impulse für eine 
Linguistik, die das Visuelle (und andere Modalitäten) nicht nur mehr und mehr 
ins das analytische Blickfeld rückt, sondern die dort offengelegten Mechanis- 
men und Bedeutungspotenziale multimodaler Kommunikate gerade auch für 
den eigenen fachinternen Wissensaustausch zwischen Forschern, Lehrenden und 
Studierenden erkennt und nutzt. Ich möchte meinen Beitrag als Spielfeld nutzen, 
um die epistemischen Potenziale von Musterbrüchen in der Linguistik auch mit 
selbsterstellten Visualisierungen zu erkunden - und hoffe auf ästhetische Erfah- 
rungen und einen langen verweilenden Blick. 
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2. Theoretisches | Ästhetik und eine Visuelle Linguistik 
2.1 Ästhetik | Muster und Musterbrüche 


Ästhetik sowie das prozessbetonende Derivat Ästhetisierung werden heutzu- 
tage am ehesten dazu genutzt, um auf „das Kunstschöne“ (Stöckl 2013a: 93) 
als „Gegenstand unserer Hochschätzung und Bewertung“ (Welsch 1996: 65) zu 
referieren. Bei genauerer Betrachtung wird jedoch die enorme Streubreite der 
Objekte und Phänomene offensichtlich, auf die sich Ästhetik in Alltags- und 
Fachsprache beziehen kann: Im Bereich der Kunst selbst finden sich mitunter 
denotationsschwache und konnotationsstarke Verwendungen, wenn beispiels- 
weise auf amazon.de ein Ein-Klecks-Malset für abstrakte Kunst mit einer „Ästhe- 
tik-Garantie vom Profi“ beworben wird. Darüber hinaus findet der Begriff auch 
in Bezug auf Musik, Material, Werbung, Warenwelt, und Natur Verwendung oder 
wird zur Kontrastierung mit Ethik, Funktionalität und Technik herangezogen 
(Stöckl 2013a: 90-93). Dieses Abweichen des Ästhetikbegriffs von seinem kunst- 
bezogenen Bedeutungskern könnte, so vermute ich, auf ein ursprünglich weites 
Verständnis des Konzepts als Beschäftigung mit einer „Sinneserfahrung im All- 
gemeinen“ (Allesch 2006: 10) zurückgehen, welches in den Schriften Alexander 
Gottlieb Baumgartens (um 1850) angelegt ist, sich bis heute in der Verwendungs- 
breite des Begriffs niederschlägt und zu einer gewissen „begrifflichen Unschärfe 
und Vagheit“ (Stöckl 2013b: 2) geführt hat. Es scheint einzig die in der Natur 
des Menschen liegende Präferenz für das Schöne gegenüber dem Abstoßenden 
zu sein, die das Kunstschöne beständig in den Vordergrund rückt und den Blick 
auf das Wesentliche versperrt: Ein Ästhetikbegriff, der ein Geschmacksurteil als 
zweitrangig einstuft und genereller auf perzeptuelle Erfahrungen abhebt, birgt 
deutliche Vorteile gegenüber einer Ästhetik als „Theorie der Kunst“ oder „The- 
orie des Schönen“, die zu eng scheinen, weil ästhetische Erlebnisse nicht nur 
durch Kunstwerke oder schöne Dinge ausgelöst werden können (Reicher 2005: 
13). Jedoch greift auch diese Fassung zu kurz, weil nicht jede Sinneswahrneh- 
mung gleich eine ästhetische ist (Reicher 2005: 15). 

Ein m. E. außerordentlich nützlicher, weil objektivierbarer Zugriff auf Asthe- 
tik und Ästhetisierungsprozesse ist jedoch innerhalb der Text- und Medienlingu- 
istik (mit Parallelen zum psychologischen Ästhetikverständnis bei Allesch 2006), 
zunächst von Fix (2001), dann beispielsweise von Stöckl (2013a) ausgearbeitet 
worden: Obwohl auch hier zumeist kunstschöne Texte im Mittelpunkt der Ana- 
lyse stehen, wird generell von einem weiten Ästhetikbegriff ausgegangen. Stöckl 
(vgl. auch Fix 2001: 37ff.) nennt jene Kommunikate ästhetisch, die „Kraft ihrer 
Materialien und Gestaltungstechniken - d. h. dank ihrer wahrnehmbaren und 
fühlbaren Hüllen“ (Stöckl 2013a: 93) unsere Aufmerksamkeit auf sich ziehen. 
Wichtiger als ein Geschmacksurteil scheint also, dass ein Artefakt sich „in der 
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Konkurrenz mit anderen Artefakten durch ästhetische Reize anbietet, die geeig- 
net sind, die Wahrnehmung des Rezipienten so zu lenken, daß er aus der Fülle 
der Angebote gerade dieses auswählt“ (Fix 2001: 39). Hierin deutet sich die m. E. 
außerordentlich gewinnbringende Anbindung des Konzepts der Ästhetik an den 
Begriff der Textsorte an. Kommunikative Handlungen, die aufgrund ihrer Zweck- 
dienlichkeit im Erreichen kommunikativer Ziele wiederholt ausgeführt werden, 
verdichten sich im Mentalen zu abstrakten kognitiven Kategorien, d. h. Text- 
sorten, die Orientierung bei Textrezeptions- und -produktionsprozessen bieten. 
Ihre prototypische Organisation, mit einem merkmalstreuen Kern und von ihm 
abweichenden peripheren Exemplaren (vgl. Sandig 2000), scheint ein wichtiger 
Schlüssel zur Modellierung von Ästhetisierung durch Musterbrüche vor dem 
Hintergrund etablierter Erwartungen erzeugender Muster zu sein. Textexemp- 
lare als konkrete Realisierungen von Textsorten, die mit ,Wahrnehmungsrou- 
tinen“ (Stöckl 2013b: 2) und „kulturellen Konventionen“ (Fix 2001: 39) brechen, 
verleiten Textrezipierende womöglich zu einem „langen verweilenden Blick“ 
(Fix 2001: 39), den Aleida Assmann (1988) treffend als „wilde Semiose“ bezeich- 
net hat. Unser Blick bleibt haften, wenn etwas durch die „Routine des Gewöhnli- 
chen und die ewige Wiederkehr des Bekannten hindurchdringt“ (Assmann 2015: 
18) und „die Zeichen ‚aus dem Ordnungsgefüge konventioneller Beziehungen 
entlassen‘ sind, wenn sie ‚neue, unerwartete Beziehungen eingehen‘ (Assmann 
1988: 238). Jeder Ausbruch aus kulturellen Konventionen führt zu den Bedingun- 
gen ‚wilder Semiose‘“ (Fix 2001: 42, vgl. Assmann 1988: 239) 

Für die hier geführte Argumentation ist eine Schlussfolgerung essenziell: Ein 
verweilender Blick, der in der Betrachtung der Form verharrt, einer „Formäs- 
thetik* (Fix 2001: 38) nachspürt, findet sich bald in einer Fülle von inhaltlichen 
Assoziationen wieder, die der schnelle, flüchtige Blick nie zu evozieren vermocht 
hätte: „Sie [i. e. die wilde Semiose, J. P.] stellt neue, unmittelbare Bedeutung her, 
sie unterläuft, verzerrt, vervielfältigt, sprengt die vorgegebenen Raster der Sinn- 
bildung“ (Assmann 2015: 22). Ästhetisches Denken kann demnach als ein Den- 
ken beschrieben werden, „das von Wahrnehmungen lebt [...] und zu Einsichten 
führt [...]“ (Welsch 1998: 56). Auf ihre erkenntnisbringende Wirkung verweist 
Welsch auch bei der Beschreibung revolutionärer wissenschaftlicher Entdeckun- 
gen (Welsch 1996: 92-93). Hierin deuten sich die Leistungen des Ästhetischen als 
Folge einer „maximalen Konzentration der Aufmerksamkeit auf einen gegebe- 
nen Gegenstand“ an (Mukarovsky 1982: 32f., zit. in Fix 2001: 38). Daraus möchte 
ich eine Kernthese meines Beitrags ableiten, die sich sowohl auf Visualisierun- 
gen linguistischer Theorien, wie ich sie hier vorstelle, als auch auf Visualisierun- 
gen großer empirischer Datenmengen in der Linguistik bezieht, welche ein Gros 
der weiteren Beiträge dieses Bandes behandeln: 
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Ich vermute, dass eine Ästhetisierung von Linguistikvermitt- 
lung, d. h. ein bewusstes Aufbrechen momentan typischer 
logozentrischer Muster linguistischer Wissenskommunikation 
durch (knapp betextete) Visualisierungen, rezipientenseitig zu 
einer verlängerten und bewussteren Wahrnehmung der mus- 
terbrechenden Elemente führt. Ein langer verweilender Blick 
kann dann im Rahmen einer wilden Semiose erkenntnisfór- 
dernde und motivationale Effekte erzielen. 


Das Wissen um kognitiv folgenreiche ,Regelverletzungen innerhalb eines Medi- 
ums, aber auch [um] Mischungen von Möglichkeiten verschiedener Medien und 
Grenzüberschreitungen zwischen den Medien“ (Fix 2001: 39) ist dann auch für 
die bewusste Produktion ästhetischer Kommunikate von Belang. Ein Ästhetik- 
begriff, der nicht vorrangig an Geschmacksurteile gebunden ist, sondern eine 
(Nicht-)Passung im Hinblick auf Textsortenwissen als Bezugsgröße wählt, ent- 
bindet Gestalter davon, zwangsläufig etwas Kunstschönes zu schaffen. Gerade 
bei eher logozentrischen Textsorten der linguistischen Wissensvermittlung 
sind es eher die Visualisierungen überhaupt, nicht ihr künstlerischer Duktus, 
die Musterbrüche erzeugen und Erkenntnis begünstigen. Auch ungeübte Gestal- 
ter sollten sich deshalb nicht scheuen, die Potenziale des Visuellen praktisch zu 
erkunden. Es gilt Visualisierungen zu entwickeln, die in ihrer formalen Gestal- 
tung ,,[erwartungs-nonkonform]* (Stöckl 2013a: 106) genug sind, um den Blick 
zu bannen und eine intensivere Beschäftigung mit der Inhaltsebene zu initiieren. 

Nichtsdestotrotz vermag das Nutzen „künstlerisch[er] Verfahren und 
handwerklich[er] Vollkommenheit“ (Assmann 2015: 24) die Wahrscheinlichkeit 
einer besonderen Wahrnehmung über die puren Effekte des grafikinduzierten 
Musterbruchs hinaus zu steigern. Bewusst wähle ich Techniken, die das Künst- 
lerische instrumentalisieren, um ein Kommunikat mit „passenden Konnotati- 
onen aufzuladen“, wie es Stöckl (2013a: 104) als Ästhetisierungsstrategie von 
Werbung formuliert. Assmann schreibt: „Durch Farben und Formen, Ornament 
und Illustration, aber auch durch den Abdruck von Persönlichkeit wird der Weg 
zum immateriellen Inhalt unterbrochen“ (Assmann 1988: 241). Es gilt einzig zu 
bedenken, dass kommunikative Praktiken nur vor dem Hintergrund eines kont- 
rasterzeugenden Musters musterbrechend wirken. Um dem abgestumpften Blick 
der „Anästhetik“ (Welsch 1998: 10), d. h. dem Umschlagen der „wilden“ in eine 
„milde Semiose“ vorzubeugen, müssen gestalterische Entscheidungen wohlbe- 
dacht und wohldosiert sein. 

Ähnliches gilt auch für die sukzessive Etablierung besagter Musterbrüche. 
In diesem Zusammenhang möchte ich jedoch genereller betonen: Der Vorschlag 
zum Erzeugen von Musterbrüchen in momentan noch stark logozentrischen 
Textsorten der Linguistikvermittlung ist in erster Linie ein zeitgenössischer. Es 
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ist mein Wunsch und Ziel, dass Visualisierungen künftig einen festen Platz im 
Musterrepertoire linguistischer Wissenskommunikation erhalten, also bildstarke 
Musterbrüche zum Muster werden. Auf eine „wilde Semiose“ folgt damit eine 
drastische Erweiterung des Formen- und Funktionsrepertoires nun dezidiert 
multimodaler Textsorten der Linguistikvermittlung. Hierzu braucht es jedoch 
noch viele Musterbrüche. 


2.2 Visuelle Linguistik | 
Möglichkeiten des Musterbruchs in der Linguistikvermittlung 


Ein Ästhetikbegriff, der zunächst frei von Geschmacksurteilen ist und Wahr- 
nehmung über alle Sinneskanäle in den Vordergrund stellt, verweist auf eine 
Darbietung von Informationen, die den Musterbruch in logozentrischen Texts- 
orten der Geisteswissenschaften durch Integration von Visualisierungen sucht. 
Das Visuelle scheint aufgrund seiner dichten und räumlichen Zeichenteppiche 
besonders günstige Bedingungen für „wilde Semiosen“ schaffen zu können (Ass- 
mann 2015: 24). Im Hinblick auf Vermittlungskontexte liegen die Vorteile jedoch 
gerade auch in einer medialen und funktionalen Kompatibilität des Visuellen 
mit der in flächigen Medien realisierten geschriebenen Sprache und den ermög- 
lichten bedeutungspotenzierenden Effekten. Zum gezielten Herbeiführen solch 
einer Multimodalität in Theorietexten möchte ich zunächst einige theoretische 
Vorüberlegungen anstellen, welche nachfolgend am Beispiel der konzeptuellen 
Metapherntheorie praktisch erprobt werden sollen. 

Zum speziellen Fall der bewussten Informationsübertragung von einem 
Zeichensystem in ein anderes gibt es bisher nur wenig Forschung (siehe bspw. 
Baker 2011: xvii). Wertvolle Anknüpfungspunkte liefert jedoch Jakobsons Kon- 
zept der „intersemiotischen Übersetzung“ oder „Transmutation“, die er als „eine 
Interpretation sprachlicher Zeichen mit Hilfe von Zeichen nichtsprachlicher Zei- 
chensysteme“ (Jakobson 1981: 190) definiert. Weitere Bezüge ergeben sich auch 
in den medientheoretischen Arbeiten Ludwig Jägers, der sich mit intermedia- 
ler Transkription beschäftigt und sie als Verfahren beschreibt, „das mindestens 
ein zweites mediales Kommunikationssystem zur Kommentierung, Erläuterung, 
Explikation und Übersetzung [...] eines ersten Systems heranzieht“ (Jäger 2002: 
29) Es betont ein im kommunikativen Austausch nahezu notwendiges Lesbarma- 
chen von Zeichen einer Modalität durch die weiterer Zeichensysteme mit dem 
Ziel der Bedeutungserschließung und -konstitution. 

Ausgehend von diesen Konzeptionen möchte ich meine methodischen Über- 
legungen skizzieren (für einen ausführlicheren Leitfaden siehe Pflaeging 2015a: 
385) und nachfolgend praktisch erproben. Für eine Visualisierung linguistischer 
Theorien ergeben sich aus meiner Sicht folgende zwei Bezugsbereiche: 
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(1) Verbalsprachliche Bildlichkeit | In diesem Bezugsbereich sind m. E. drei 
Aspekte wesentlich: Der wichtigste scheint mir, erstens, der häufige 
Gebrauch von bildlicher Sprache in wissenschaftlichen Theorietexten zu 
sein, wie bereits oben angedeutet wurde. Dies hängt, zweitens, zusammen 
mit konkreten Denotaten von Wörtern und Phrasen, die sowohl im meta- 
phorischen als auch im nicht-metaphorischen Sprachgebrauch viel Poten- 
zial zur ikonischen Darstellung mitbringen. Eine weitere relevante Dimen- 
sion ergibt sich, drittens, aus der für verbale Sprache typischen linearen 
Rezeption der Zeichengefüge. Sprachbasierte Fachtexte führen Inhalte oft 
Schritt für Schritt ein und bauen so theoretische Modelle sukzessive auf. 
Dies ist nicht nur nützlich für das Verstehen vielschichtiger Theorien, son- 
dern auch für das schrittweise Visualisieren theoretischer Gedanken, die 
dann nachfolgend zu einer komplexeren Grafik zusammengesetzt werden 
können. 


(2) Reflexion modalitätsspezifischer Stärken und Schwächen | Ein Bewusstma- 
chen der kommunikativen Stärken und Schwächen einzelner Zeichen- 
systeme (siehe auch Stöckl 2016) — oder kontrastierend formuliert: ihrer 
Gemeinsamkeiten und Unterschiede - erlaubt das Ausgleichen kommuni- 
kativer Nachteile im Zusammenklang der Modalitäten. Hier wirken gerade 
die Differenzen beider Zeichensysteme bedeutungspotenzierend (vgl. 
„near-analogy“-Prinzip in Brock & Pflaeging 2018). Die räumliche Struk- 
tur und Zeichendichte einer visuell-bildlichen Darstellung erlaubt es, ver- 
schiedenste Teilaspekte einer Theorie auf kleinem Raum miteinander zu 
verschränken, profitiert aber von einem parallel dargebotenen Fließtext. 
Die Tendenz zur Mehrdeutigkeit visueller Zeichenkomplexe kann beispiels- 
weise mithilfe verbaler Labels aufgefangen werden. Holly (2006) beschreibt 
diesen Effekt als Monosemierung. Ausgehend von grafikstilbezogenen Kon- 
notationen (bspw. durch einen lockeren Strich und farbenfrohes Aquarel- 
lieren), lässt sich über das Entstehen expressiver Bildakte spekulieren. Ein 
bildliches Andeuten von Räumlichkeit durch perspektivisches Skalieren 
sowie ein Verblassen der Farben könnte zu bildlichen Implikaturen führen. 
Bei der Finalisierung der auf Sprachbasis erzeugten Grafik spielen all diese 
Überlegungen eine Rolle und erlauben im Hinblick auf Vermittlungskon- 
texte zielführende Gestaltungsentscheidungen. 


Um die Möglichkeit und Nützlichkeit solcher Visualisierungen auszuloten, 
möchte ich mich nun einigen konkreten Beispielen zuwenden. Dabei werde ich 
selbst visualisierend und betextend aktiv werden und - hoffentlich anregende - 
Musterbrüche erzeugen. 
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3. Praktisches | Zur konzeptuellen Metapherntheorie 
3.1 Zum Inhalt 


1,80 spontane und 4,08 konventionalisierte Metaphern pro Gesprächsminute 
(Pollio et al. 1977, zit. in Glucksberg 1989: 126) — konsultiert man quantitative 
Studien zur Häufigkeit metaphorischer Ausdrücke im Sprachgebrauch, so stößt 
man auf Zahlen, die Chandlers griffige Feststellung zu unterstreichen scheinen: 
„there is more metaphor on the street corner than in Shakespeare” (Chandler 
2007: 124-125). Und diese Aussage hätte sich problemlos auch schon zu Shake- 
speares Lebzeiten formulieren lassen, denn obwohl sich die Auswahl zur Meta- 
phorisierung genutzter Konzepte vor dem Hintergrund sich wandelnder sozio- 
historischer Kontexte neu ordnet, lässt sich mithilfe überlieferter Textquellen 
belegen, dass „metaphor has been in widespread use during the past 300 years“ 
und früher (Gibbs 1994: 123). 

Einer der einflussreichsten wissenschaftlichen Ansätze zur Erklärung die- 
ses Phänomens ist die in den 1980er-Jahren im Zuge der kognitiven Wende von 
George Lakoff und Kollegen entworfene konzeptuelle Metapherntheorie (Lakoff & 
Johnson 2003; siehe auch Evans & Green 2006: 286-296). Sie verortet Metaphori- 
sierungsprozesse nicht auf der Ebene des sprachlichen Ausdrucks, sondern fasst 
sie als ein grundsätzlich und naturgegeben kognitiv ablaufendes „understanding 
and experiencing one kind ofthing in terms of another“ (Lakoff & Johnson 2003: 5, 
Hervorhebung im Original). 

Metaphorische Übertragungsprozesse weisen im Wesentlichen drei Eigen- 
schaften auf: 


(1) Concretisation | Der enorme kommunikative Nutzen von Metaphern resul- 
tiert aus der Möglichkeit, jenen Gedanken Ausdruck zu verleihen, die sich 
mit wortwörtlicher Sprache nur schwer beschreiben lassen (siehe „inexpres- 
sibility hypothesis“, Gibbs 1994: 124-125). Hierzu werden konzeptkonstitu- 
ierende Aspekte einer konkreten „source domain“ (bspw. JOURNEY) genutzt, 
um eine abstrakte „target domain“ (bspw. Lire) greifbar zu machen (Lakoff 
& Johnson 2003: 108-109; Lakoff 2006: 232). 


(2) Systematicity | Metaphorisierungsprozesse sind systematisch, d. h. es wird 
ein ganzes Bündel an Eigenschaften der „source domain“ in fester Konstel- 
lation auf die „target domain“ übertragen, sodass konzeptuelle Metaphern 
über verschiedene „metaphorical expressions” kommunikativ realisiert 
werden können (Lakoff & Johnson 2003: 7, o; Lakoff 2006: 186) — sowohl 
verbal als auch non-verbal (siehe Forceville 2008). 
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(3) Unidirectionality bzw. Asymmetry | Innerhalb der konzeptuellen Meta- 
pherntheorie werden Übertragungsprozesse als einseitig gerichtet verstan- 
den. Dies bedeutet, dass „metaphors map structure from a source domain to 
a target domain but not vice versa“ (Evans & Green 2006: 296) 


Diese sowohl spezifischen und allgemeinen theoretischen Annahmen lassen 
sich vor dem Hintergrund der hier geführten Argumentation auf einen zentra- 
len Gedanken zuspitzen: Gerade aufgrund der kognitiven Natur metaphorischer 
Übertragungen und der daraus resultierenden metaphorischen Durchdrungen- 
heit allen kommunikativen Handelns, wird die erkenntnisbringende Bildlich- 
keit der Metapher auch in fachwissenschaftlichen Diskursen ausgiebig genutzt 
(Gibbs 1994: 171; Drewer 2003). Wie die konzeptuelle Metapherntheorie selbst 
illustriert, basieren viele Modellierungen mentaler Strukturen, Kategorien und 
Vorgänge auf der Annahme MIND Is A CONTAINER (Lakoff & Johnson 2003: 148; 
Lakoff 2006: 196). Bereits in den späten 1970er-Jahren hat Reddy (1979) auf 
die CONDUIT METAPHOR hingewiesen, auf die nicht nur in der alltagssprachli- 
chen, sondern auch in der linguistischen Kommunikation über Kommunikation 
zurückgegriffen wird. Neben den Grafiken N° 01 bis 04, die sich direkt aus der 
Metaphorik der konzeptuellen Metapherntheorie ableiten, gründen auch die 
Grafiken N° 05 und 06 auf der für linguistische Modelle typischen Metaphorik 
(siehe Kapitel 3.2). Dies zeigt m. E. deutlich: Eine Verbannung der Metapher aus 
dem wissenschaftlichen Diskurs ist weder möglich noch nützlich (vgl. Chand- 
ler 2007: 125). Die über Jahrhunderte kultivierte Ansicht, dass das Nutzen von 
Metaphern im akademischen Austausch einem „wandering amongst innumera- 
ble absurdities“ gleicht und zu „contention and sedition, or contempt“ (Hobbes 
1651; zit. in Lakoff & Johnson 2003: 190) führt, sollte mittlerweile als überholt 
gelten (Gibbs 1994: 171). 

Aus diesem Grund erstaunt es umso mehr, dass die Scheu vor Bildlichkeit als 
Mittel des geisteswissenschaftlichen Wissensaustausches auf Sprachebene zwar 
rückläufig ist, sie jedoch in Form einer Bilderscheu fortzubestehen scheint - und 
sich in anhaltend logozentrischen kommunikativen Mustern äußert. Wie diese 
bereits punktuell und künftig noch bewusster und deutlicher gebrochen werden 
können, möchte ich nun zeigen. 


3.2 Zur Vermittlungspraxis | Musterbrüche durch Visualisierungen 


Bevor ich einige eigene Visualisierungsversuche zur konzeptuellen Metapher 
vorstelle, will ich kurz auf zwei theoriebezogene Grafiken zu sprechen kommen, 
die bereits viele der oben skizzierten Aspekte berücksichtigen. Sie deuten auch 
an, dass Theoretisierungen auf ganz natürliche Weise mentale Bilder nutzen, die 
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hier zu Vermittlungszwecken externalisiert wurden. Abb. 1 stammt aus einem 
umfangreichen Einführungswerk zur Kognitiven Linguistik von Evans & Green 
(2006: 313). 


TARGET SOURCE 
DOMAIN DOMAIN 


Abb. 1 


Ähnlich wie ich es in Grafik N° oi vorschlage, arbeiten sie mit zwei Flächen als 
kognitiven Domänen, einem (leider nicht in gleicher Konstellation gedruckten) 
Punkte-Cluster und mehreren Pfeilen, die den Übertragungsprozess modellieren. 

Thematisch verwandte und visuell elaboriertere Grafiken finden sich in Ab- 
handlungen zur „Mental Space Theory“ von Gilles Fauconnier und Mark Tur- 
ner. Ihre Theorie formuliert die Annahme, dass konzeptuelle Metaphern nur eine 
Spielart allgemeinerer Prinzipien konzeptueller Verknüpfung und Integration 
darstellen (Kövecses 2002: 227; Knowles & Moon 2006: 73). Außerdem betonen 
sie den dynamischen Charakter eines „blending“ kognitiver Domänen, bei dem 
Eigenschaften von „source“ als auch von „target domain“ unter Erzeugung eines 
„generic space“ letztendlich in einem bedeutungsangereicherten „blended space“ 
verschmelzen (siehe Knowles & Moon 2006: 74; Fauconnier & Turner 2006). Dies 
ist in Abb. 2 visualisiert: Auch hier erscheinen kognitive „spaces“ in flächiger 


Generic Space 


Input I, Input 1, 
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Darstellung; Konstellationen und Relationen von korrespondierenden und über- 
tragenen Eigenschaften werden durch Punkte und verschiedene Linien markiert. 

Die hier gezeigten Grafiken stellen einen deutlichen Bruch mit dem etablier- 
ten logozentrischen Muster aufgeschriebener linguistischer Metaphernvermitt- 
lung dar: Lakoff & Johnson (2003), Lakoff & Turner (1989), Lakoff (2006) sowie 
beispielsweise Gibbs (1994), Goatly (1997), Glucksberg (2001) und Knowles & 
Moon (2006) nutzen keine Visualisierungen zur Vermittlung der konzeptuellen 
Metapherntheorie. Obwohl sich hierzu auch bei Kövecses (2002) und Dancygier 
@ Sweetser (2014) nahezu keine theoriebezogenen Grafiken finden lassen, wird 
hier zur Einführung der „Mental Space Theory“ ausführlich mit den etablierten 
grafischen Mitteln (vgl. Fauconnier & Turner 2006) gearbeitet. Dies könnte auf 
theoriebezogene Publikationstraditionen hinweisen und legt aufgrund der for- 
malen und inhaltlichen Parallelen der Darstellung nahe, dass bei der konzeptuel- 
len Metapherntheorie nicht generell ein „Visualisierungsproblem“ vorliegt. Wel- 
chen Beitrag Visualisierungen bei der Aneignung linguistischen Theoriewissens 
leisten können, zeigt sich m. E. deutlich: Sie verzahnen Teilaspekte zu komplexen 
Wirkgefügen, erzeugen damit einprägsame Abbilder theoretischer Konstrukte 
und offenbaren womöglich - von theoretischem Detail befreit - neue Bezüge 
und Zusammenhänge komplexerer Theoriegebäude. 


N°01 | Metaphorisierung | Generelle Eigenschaften | Tablet und Grafiksoftware. 


Die Annahme, dass ,metaphors are mappings across conceptual domains” 
(Lakoff 2006: 185, 196), steht im Zentrum der kognitiven Metapherntheorie 
und am Anfang meines Visualisierungsvorhabens. Selbst auf der konzeptuel- 
len Metapher Mino Is A Container basierend, verweist der Ausdruck „(concep- 
tual) domains” auf den konkret-bildlichen Eindruck einer nach außen abge- 
grenzten Räumlichkeit. Diese lassen sich, wie Evans & Green vorschlagen, als 
flächige Bereiche visualisieren, können m. E. aber noch treffender - gerade 
im Sinne der Container-Metapher - als dreidimensional anmutende Sphären 
gestaltet werden. Dem „mapping across” versuche ich durch mehrere, die bei- 
den Sphärenkörper verbindende Linien nahezukommen. Die Charakteristika 
„tightly structured” und „correspond systematically” können durch eine hohen 
Liniendichte und duplizierte Markierungen auf der abstrakten Sphäre visuali- 
siert werden. Zur Kodierung der Gerichtetheit der Übertragung „from a source 
domain [...] to a target domain” (Lakoff 2006: 190) ergänze ich die Linien um 
Pfeilspitzen. Ohne sich selbst auf ein konkretes Beispiel zu beziehen, nimmt 
diese Grafik zentrale Aspekte der Theorie auf. 


target 
domain 


source 
domain 


N° 02 | Metaphorisierung | Life Is A Journey | Aquarell auf Papier. 


Weiterhin auf wesentliche theoriekonstituierende Mechanismen verweisend, 
illustriert diese Darstellung, dass das kaum fassbare, nahezu enigmatische 
Konzept Lire durch lebensweltlich erfahrbare Dimensionen des Konzepts Jour- 
ney erschließbar wird. Die „target domain“ ist vage umrissen, erhält lediglich 
auf Basis der erwähnten Container-Metapher eine leicht räumliche, konturierte 
Form. Der Kontrast zwischen den bildempfangenden und -spendenden Kon- 
zepten entsteht, neben der räumlichen Staffelung, gerade durch das Abbilden 
konkreter Journey-Aspekte, die sich in gängige metaphorische Ausdrücke über- 
setzen lassen: Die Sphäre umhüllen gewundene, steinige Pfade und gerade, 
breite Straßen, die sich ihren Weg durch die Landschaft bahnen und in Etap- 
pen an Meilensteinen und Kreuzungen vorbei zu individuellen Zielen führen 
(cf. Lakoff 2006: 189). Die angedeutete Dreidimensionalität der Kugel könnte 
hierbei implizieren, dass neben den eingezeichneten Übertragungen weitere 
Beispiele benannt werden können, die, auf der Kugelrückseite liegend, im Ver- 
borgenen bleiben. Ein essenzieller Bestandteil sind die verbalen Labels, die der 
Polysemie vieler Bildelemente entgegenwirken. 
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N° 03 | Metaphorisierung | Life Is A Journey | Tusche auf Leinwand. 


Lassen sich die wesentlichen Merkmale der konzeptuellen Metapherntheo- 
rie aus den ersten beiden teilweise verbal transkribierenden Grafiken noch 
recht klar ableiten, so scheint sich die hier abgebildete Visualisierung von Lire 
Is A Journey einer unmittelbaren und eindeutigen Ausdeutung zunächst zu ver- 
schließen. Weder die systematischen Korrespondenzen zwischen Quell- und 
Zieldomäne, noch die Gerichtetheit des Übertragungsprozesses oder die 
Kontrastierung von Konkretem und Abstraktem finden in der Gestaltung eine 
explizite Entsprechung. Ein Großteil dieser Aspekte ist jedoch m. E. implizit 
vorhanden und über Inferenzprozesse erschließbar. Bewusst bleibt die typi- 
scherweise über den konkretisierenden Umweg greifbare Zieldomäne in der 
Gestaltung ausgespart; eine Leerstelle, die ohne Metaphorisierung keine Kon- 
tur, keine Körperlichkeit erhält und die metaphorische Übertragung als kom- 
munikative Notwendigkeit offenlegt. Sowohl form- als auch inhaltsästhetisch 
schafft solch ein Zugriff auf Metaphorik womöglich beste Voraussetzungen für 
das Verweilen im Bild und das Auslösen einer „wilden Semiose”. 


N° 04 | Metaphorisierung | Mind Is A Container | Tusche auf Leinwand. 


Mit diesen beiden Fassungen der konzeptuellen Metaphern Lire Is A Journey und 
Mino Is A Container Möchte ich eine alternative grafische Form anbieten, die in 
vielerlei Hinsicht, so hoffe ich, eine noch weitreichendere und epistemisch in- 
tensivere Annäherung an die Essenz von Metaphorik zu erreichen vermag. Auf- 
gegliederte Ideen von einem Weg; dichte, sich auf- und abbauende Strukturen 
in mentalen Räumlichkeiten. Ein bildliches Angebot, das trotz allen Bändigens 
seiner Visualität in eine konkret-ikonische Form formal vage genug bleibt, um 
individuellen Assoziationen und Interpretationen den nötigen Raum zu lassen 
- der „wilden Semiose“ einen Tummelplatz zu bieten. Selbstverständlich: Ein 
holistisches Erfassen zentraler Aspekte der konzeptuellen Metapherntheorie 
lediglich auf Basis dieser Darstellungsform scheint - auch mit metaphernbe- 
nennendem Kurztitel - wenig realistisch. Gezielt sprachlich betextet könnten 
mit solch einer Grafik m. E. jedoch Dimensionen von Metaphorik erkundet 
werden, die das systematisch-ordnende Raster einer sprachwissenschaftli- 
chen Beschreibung mitunter nicht einzufangen vermag. 
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4. Geschlussfolgertes & Weiterführendes 


COMPOSING AN ACADEMIC ARTICLE ... Is A JOURNEY. In diesem Beitrag habe ich 
sowohl theoretisch als auch praktisch dafiir argumentiert, dass die Logozent- 
riertheit des zeitgenössischen Wissensaustausches in der Sprachwissenschaft 
vor allem in der seit jeher stark sprachbasierten Publikationstradition, nicht aber 
zwingend im Gegenstand linguistischer Forschung begriindet liegt. Der lingu- 
istische Diskurs lebt gerade auch von mentalen Bildern und metaphorischen 
Ausdrücken, welche es uns erlauben, die für von Sprache und ihre Erforschung 
angenommenen abstrakten Mechanismen und vorgeschlagenen theoretischen 
Zugriffe fassbar zu machen. Am Beispiel der konzeptuellen Metapherntheorie 
sowie weiterer theoretischer Modellierungen der Linguistik (siehe nachfolgend 
N° 05 und N° 06) habe ich gezeigt, dass gerade diese verbalsprachliche Bildlich- 
keit zum Ausgangspunkt für die Erstellung komplexer Visualisierungen linguis- 
tischer Theorien werden kann. 

Unterbricht man den logozentrischen Textfluss gängiger Textsorten der 
Linguistikvermittlung, sei es in Fachaufsätzen (Hauser et al. 2016) oder Einfüh- 
rungslehrwerken (Pflaeging 2013; Pflaeging & Brock 2018), so wird es wahr- 
scheinlich, dass sich in der Textrezeption die Aufmerksamkeit gerade bei den 
musterbrechenden Textteilen bündelt und in einen langen verweilenden Blick 
übergeht. Aufgrund der kommunikativen Eigenschaften mit Texten angereicher- 
ter Visualisierungen können bspw. einzelne Aspekte eines komplexen theore- 
tischen Modells erkenntnisschaffend miteinander verschränkt werden. Hierbei 
entstehen im Rahmen einer „wilden Semiose“ möglicherweise auch inhaltliche 
Assoziationen, die ein verbalsprachlicher Theorietext kaum erzeugen kann. Diese 
könnten sogar in eine ,metakommunikativ[e] Reflexion“ über „Form, Inhalt und 
Wirkungsweise“ (Stöckl 2013b: 3) gängiger Praktiken der Linguistikvermittlung 
münden, die nicht nur die Reflexion fachspezifischer Metaphorik ermöglicht, 
sondern auch das erkenntnisbringende Potenzial linguistischer Visualisierungen 
aufzeigt und zu absichtsvollen Musterbrüchen ermutigt. 

Ich verfolge mit diesem Beitrag also nicht nur das Ziel, den Weg zu den hier 
vorgestellten Grafiken transparent zu machen und die Visualisierungsmethodik 
auch für andere Gebiete der linguistischen und geisteswissenschaftlichen For- 
schung vorzuschlagen. Ich hoffe nicht zuletzt auch, meine Fachkolleginnen und 
-kollegen zum Erkunden des Visualisierungspotenzials eigener (und fremder) 
theoretischer Texte anzuregen - sei es für die linguistische Wissensvermittlung 
in den öffentlichen Räumen einer fachinternen Experten-Experten- und Exper- 
ten-Laien-Kommunikation oder beim privat-linguistischen Abwandern her- 
meneutischer Zirkel. Denn nicht zuletzt vermag man dann auch als Bildprodu- 
zent zu entdecken, was Visualisierung und geisteswissenschaftliche Forschung 
eigentlich eint: 


N° 05 | Text- & Medienlinguistik | Mehrebenenmodell (multimodaler) Textsorten. 


Diese Grafik versucht innerhalb der Text- und Medienlinguistik gängige Ana- 
lysekriterien von Textsorten oder Genres visuell zu fassen. Durch zielführen- 
des und dadurch wiederkehrendes Produzieren und Rezipieren kommuni- 
kativer Handlungen verdichten sich diese zu deutlich umrissenen Mustern, 
welche Mitgliedern einer Gemeinschaft als prototypisch organisierte, kognitive 
„devices for sense-making” (Lomborg 2014: 3; siehe auch Swales 1990; San- 
dig 2000) zur Verfügung stehen. Der Vielschichtigkeit kommunikativer Reali- 
tät versuchen Text- und Medienlinguisten mittels einer Mehrebenenanalyse 
Rechnung zu tragen (Heinemann & Viehweger 1991; Brinker et al. 2014), die 
oft eine Beschreibung der Kommunikations-situation, des Themas, der multi- 
modalen Struktur sowie typischer Textfunktionen umfasst (vgl. bspw. Brinker 
et al. 2014; Pflaeging 2015b; Stöckl 2016). Konkrete Textexemplare, die eine 
analytische Rekonstruktion von Textsortenwissen erlauben, existieren jedoch 
nur auf Basis textsortentypischer medial-technischer Konstellationen (bzw. 
Kommunikationsformen, Brock & Schildhauer 2017). All diese Aspekte sind tief 
in kulturellen Kontexten verankert. 


GE j HE FINSAME INSEL 
Bern PRE-TEST | KLASSE 5 


AUFGABE | NACH EINEM SCHIFFSÜNGLÜCK BIST 
VIER ANDEREN KINDERN AUF EINER EINSAMEN 
GESTRANDET, ZUM GLÜCK FINDET IHR IN E 
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N° 06 | Konversationsanalyse | Modellierung von Argumentationskompetenz. 


Ebenso wie visuelle Textsortenmodelle eher untypisch für textlinguistische 
Publikationen sind (siehe aber Pflaeging 2015b; Brock 2016; Schildhauer 2016; 
Stöckl 2016), finden sich auch in konversationsanalytischen Veröffentlichungen 
kaum theoriebezogene Grafiken, sodass m. E. auch hier viel epistemisches Po- 
tenzial ungenutzt bleibt: Die hier im Ausschnitt abgebildete Grafik deutet an, 
wie argumentatives Gesprächsverhalten visuell modelliert werden könnte - am 
Beispiel einer Robinsongeschichte. Während das Erwähnen einzelner Gegen- 
stände (z. B. Zelt als Utensil auf einer einsamen Insel) durch Icons markiert wird, 
ist die Tiefe des vorgebrachten Arguments durch unterschiedlich dicht gestri- 
chelte und breite Linien gefasst. Einzelne „turns“ und assoziierte Argumente 
sind farblich kodiert und räumlich in eine zeitliche Sequenz gebracht. Außer- 
dem werden gegenseitige Bezugnahmen durch Pfeile visualisiert. Die Grafik 
integriert so nicht nur erstmals (siehe aber Vogt 2007; Grundler 2011) Sequenzi- 
alität, Interaktivität und Temporalität von Argumentationen in eine Darstellung, 
sondern legt auch ihre musterhaften Verläufe offen (Hauser et al. 2016). 
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... beschreibt eine ganz eigene Art der Auseinandersetzung mit der Welt. Ent- 
deckungen und Erfindungen weltlicher Realität werden durch Textproduzen- 
ten mittels Zeichen zu komplexen kommunikativen Angeboten verdichtet und 
an Textrezipienten vermittelbar. Sie dient der Annäherung an eine vermutete, 
erhoffte Wahrheit über die Welt, die es zu entschlüsseln gilt. 


Ihre bewusste Zusammenführung im Dienste einer 
visuell(er)en Linguistik kann meines Erachtens nur 
wünschenswert sein. 


142 — Jana Pflaeging 
5. Dankendes 


Mein herzlicher Dank gilt Alexander Brock, Volker Eisenlauer, Michaela Haus- 
mann, Peter Schildhauer und Hartmut Stöckl für unzählige kundige Hinweise 
und inspirierende Gespräche, durch die die hier vorgestellten Überlegungen wei- 
ter an Kontur gewonnen haben. 


6. Bibliografie 


Allesch, Christian. 2006. Einführung in die psychologische Ästhetik. Wien: WUV. 

Assmann, Aleida. 1988. „Die Sprache der Dinge: Der lange Blick und die wilde 
Semiose. In Materialität der Kommunikation, herausgegeben von Hans-Ulrich 
Gumbrecht und K. Ludwig Pfeiffer. Frankfurt am Main: Suhrkamp, 237-251. 

Assmann, Aleida. 2015. Im Dickicht der Zeichen. Berlin: Suhrkamp. 

Baker, Mona. 2011. Routledge Encyclopedia of Translation Studies. London: 
Routledge. 

Ballstaedt, Steffen-Peter. 2012. Visualisieren: Bilder in wissenschaftlichen Texten. 
Konstanz: UVK. 

Brinker, Klaus, Hermann Cölfen und Steffen Pappert. 2014. Linguistische Textana- 
lyse: Eine Einführung in Grundbegriffe und Methoden. Berlin: Schmidt. 

Brock, Alexander. 2016. “The Borders of Humorous Intent: The Case of TV 
Comedies.’ Journal of Pragmatics 95: 58-66. 

Brock, Alexander und Jana Pflaeging. 2018. “The Virtues of Near-Analogy in 
Language and Communication.” In Analogy, Copy, and Representation: Inter- 
disciplinary Perspectives, herausgegeben von Christoph Haase und Anne 
Schréder. Bielefeld: Aisthesis. 

Brock, Alexander und Peter Schildhauer, Hrsg. 2017. Communication Forms and 
Communicative Practices: New Perspectives on Communication Forms, Affor- 
dances and What Users Make of Them. Frankfurt am Main: Lang. 

Chandler, Daniel. 2007. Semiotics: The Basics. London: Routledge. 

Dancygier, Barbara und Eve Sweetser. 2014. Figurative Language. Cambridge: 
Cambridge University Press. 

Drewer, Petra. 2003. Die kognitive Metapher als Werkzeug des Denkens: Zur Rolle der 
Analogie bei der Gewinnung und Vermittlung wissenschaftlicher Erkenntnisse. 
Tübingen: Narr. 

Evans, Vyvyan und Melanie Green. 2006. Cognitive Linguistics: An Introduction. 
Edinburgh: Edinburgh University Press. 

Fauconnier, Gilles und Mark Turner2006. “Metal Spaces: Conceptual Integration 
Networks” In Cognitive Linguistics: Basic Readings, herausgegeben von Dirk 
Geeraerts. Berlin: Mouton de Gruyter, 303-371. 


Zur Ästhetisierung linguistischer Wissensvermittlung — 143 


Fix, Ulla. 2001. „Die Asthetisierung des Alltags: - am Beispiel seiner Texte“ Zeit- 
schrift für Germanistik. Neue Folge ı: 36-53. 

Forceville, Charles. 2008. “Metaphor in Pictures and Multimodal Representa- 
tions.’ In The Cambridge Handbook of Metaphor and Thought, herausgegeben 
von Raymond W. Gibbs. Cambridge: Cambridge University Press, 462-482. 

Gibbs, Raymond W. 1994. The Poetics of Mind: Figurative Thought, Language, and 
Understanding. Cambridge: Cambridge University Press. 

Glucksberg, Sam. 1989. “Metaphors in Conversation: How Are They Understood? 
Why Are They Used?” Metaphor and Symbolic Activity 4, Nr. 3: 125-143. 

Glucksberg, Sam. 2001. Understanding Figurative Language. Oxford: Oxford 
University Press. 

Goatly, Andrew. 1997. The language of Metaphors. London: Routledge. 

Grundler, Elke. 2011. Kompetent argumentieren: Ein gesprächsanalytisch fundier- 
tes Modell. Tübingen: Stauffenburg. 

Hauser, Stefan, Martin Luginbühl und Jana Pflaeging. 2016. “How to Picture an 
Argument: New Visual Approaches to the Description of Argumentative 
Competence in Conversation Analysis” Vortrag auf der Tagung Knowledge 
Design: Graphic Design and Science Communication, Universität Tübingen, 
07.04.2016. 

Heinemann, Wolfgang und Dieter Viehweger. 1991. Textlinguistik: Eine Einfüh- 
rung. Tübingen: Niemeyer. 

Holly, Werner. 2006. „Mit Worten sehen: Audiovisuelle Bedeutungskonstruktion 
und Muster transkriptiver Logik in der Fernsehberichterstattung.“ Deutsche 
Sprache 34: 135-150. 

Huber, Ludwig, Arne Pilniok, Rolf Sethe, Birgit Szczyrba und Michael Vogel, 
Hrsg. 2014. Forschendes Lehren im eigenen Fach: Scholarship of Teaching and 
Learning in Beispielen. Bielefeld: Bertelsmann. 

Jäger, Ludwig. 2002. „Transkriptivität: Zur medialen Logik der kulturellen Seman- 
tik” In Transkribieren: Medien/Lektüre, herausgegeben von Ludwig Jäger und 
Georg Stanitzek, 19-42. 

Jakobson, Roman. 1981. „Linguistische Aspekte der Übersetzung.“ In Über- 
setzungswissenschaft, herausgegeben von Wolfram Wills. Darmstadt: Wis- 
senschaftliche Buchgesellschaft, 189-198. 

Knowles, Murray und Rosamund Moon. 2006. Introducing Metaphor. London: 
Routledge. 

Kövecses, Zoltän. 2002. Metaphor: A Practical Introduction. New York: Oxford 
University Press. 

Kuiper, Koenraad, Hrsg. 2011. Teaching Linguistics: Reflections on Practice. London: 
Equinox. 


144 — Jana Pflaeging 


Lakoff, George. 2006. “The Contemporary Theory of Metaphor.’ In Cognitive Lin- 
guistics: Basic Readings, herausgegeben von Dirk Geeraerts.. Berlin: Mouton 
de Gruyter, 185-239. 

Lakoff, George und Mark Johnson. 2003. Metaphors We Live by. Chicago: The 
University Press of Chicago. 

Lakoff, George und Mark Turner. 1989. More than Cool Reason: A Field Guide to 
Poetic Metaphor. Chicago: University of Chicago Press. 

Lomborg, Stine. 2014. Social Media, Social Genres: Making Sense of the Ordinary. 
New York: Routledge. 

Pflaeging, Jana. 2013. “Promoting the Visualisation of Linguistic Theories? In 
Facets of Linguistics: Proceedings of the 14th Norddeutsches Linguistisches Kol- 
loquium 2013 in Halle an der Saale, herausgegeben von Anne Ammermann, 
Alexander Brock, Jana Pflaeging und Peter Schildhaue. Frankfurt am Main: 
Lang, 173-187. 

Pflaeging, Jana. 2015a. “How to Visualize Linguistic Theories: Multimodale Lin- 
guistikvermittlung in universitären Lehrwerken.” Mitteilungen des Deutschen 
Germanistenverbandes 62, Nr. 4: 379-394. 

Pflaeging, Jana. 2015b. “Things that Matter, Pass them on’: ListSite as Viral 
Online Genre” 1oplus1 | Living Linguistics 1, Nr. 1: 156-182. 

Pflaeging, Jana und Alexander Brock. 2017. “A Sentence is a Hostel Room: New 
Approaches to Textbooks for Beginner Students of English Linguistics” In 
Exploring the Periphery: Perspectives from Applied Linguistics, Language 
Teaching, Literary and Cultural Studies, herausgegeben von Stefanie Quaker- 
nack, Till Meister, Diana Fulger und Nathan Devos. Bielefeld: Aisthesis. 

Pflaeging, Jana und Peter Schildhauer. 2015. “Generating and Exchanging Know- 
ledge: Rethinking Current Practices in Linguistics” 10plus1 | Living Linguistics 
1, Nr. 1: 1-8. 

Reddy, Michael J. 1979. “The Conduit Metaphor: A Case of Frame Conflict in Our 
Language about Language.” In Metaphor and Thought, herausgegeben von 
Andrew Ortony Cambridge: Cambridge University Press, 284-324. 

Reicher, Maria E.2005. Einführung in die philosophische Asthetik. Darmstadt: 
Wissenschaftliche Buchgesellschaft. 

Sandig, Barbara. 2000. „Text als prototypisches Konzept.“ In Prototypentheorie in 
der Linguistik: Anwendungsbeispiele — Methodenreflexion — Perspektiven, her- 
ausgegeben von Martina Mangasser-Wahl. Tübingen: Stauffenburg, 93-112. 

Schildhauer, Peter. 2016. The Personal Weblog: A Linguistic History. Berlin: Lang. 

Schmitz, Ulrich, Hrsg. 2004. Linguistik lernen im Internet: Das Lehr-/Lernportal 
PortaLingua. Tübingen: Narr. 

Stöckl, Hartmut. 2013a. „Ästhetik und Ästhetisierung von Werbung“ In Wer- 
bung - Keine Kunst!?: Phänomene und Prozesse der Ästhetisierung von 


Zur Ästhetisierung linguistischer Wissensvermittlung — 145 


Werbekommunikation, herausgegeben von Hartmut Stóckl. Heidelberg: 
Winter, 89-116. 

Stöckl, Hartmut. 2013b. ,Werbekommunikation und Asthetisierung: Zur Einfüh- 
rung. In Werbung - Keine Kunst!?: Phänomene und Prozesse der Ästhetisierung 
von Werbekommunikation, herausgegeben von Hartmut Stöckl. Heidelberg: 
Winter, 1-9. 

Stöckl, Hartmut. 2016. „Multimodalität: Semiotische und Textlinguistische 
Grundlagen“ In Sprache im multimodalen Kontext, herausgegeben von Nina- 
Maria Klug und Hartmut Stöckl. Berlin: Mouton de Gruyter, 3-35. 

Swales, John M. 1990. Genre Analysis: English in Academic and Research Settings. 
Cambridge: Cambridge University Press. 

Vogt, Rüdiger. 2007. „Mündliche Argumentationskompetenz beurteilen: 
Dimensionen, Probleme, Perspektiven“ Didaktik Deutsch 12, Nr. 23: 33-53. 

Welsch, Wolfgang. 1996. Grenzgänge der Ästhetik. Stuttgart: Reclam. 

Welsch, Wolfgang. 1998. Ästhetisches Denken. Stuttgart: Reclam. 


II. Praxis 


Armin Hoenen 


Recurrence Analysis Function, 
a Dynamic Heatmap for the Visualization 
of Verse Text and Beyond 


Abstract The Recurrence Analysis Function (ReAF) is a cross-linguistic visu- 
alization tool for (historical) verse text, especially handwritten epics. It can also 
provide a general visualization of various aspects of prose text. It aims to enable 
intuitive understanding through explorative data analysis of historical, espe- 
cially bardic-oral texts.’ The assumption behind this is that bardic/born-oral 
and non-bardic/born-written texts differ drastically in the way they employ 
repetition. The ReAF in its first implementation, as presented here, is a lan- 
guage-independent tool that permits the visual exploration of such structures. 
Firstly, general aspects and formal characteristics of oral verse text are charac- 
terized, before the main technical details and some additional applications of 
the ReAF are explained and illustrated. 


1. Preliminaries 


Plato warned through one of his characters that “Those who acquire it [ref. to 
writing], will cease to exercise their memory and become forgetful’ (Coe 2012). 
Actually, born-oral and born-written texts do have a number of different char- 
acteristics. If Plato’s assumptions were true, then those differences might be pri- 
marily connected to memory, which Ong (2012) implicitly states: “In a primary 
oral culture, to solve effectively the problem of retaining and retrieving carefully 


1 Born-oral refers to the circumstances of composition of a text. More precisely, it refers 
to all texts, which originated in the pre-literate ages. Born-oral encompasses such 
texts, which existed before their first written manifestation, that is, texts where com- 
posing them in their entirety happened exclusively in the oral medium without any 
use of writing. The opposite, born-written, encompasses all texts where writing was 
involved in the text construction processes. 
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articulated thought, you have to do your thinking in mnemonic patterns, shaped 
for ready oral recurrence.” One striking feature of born-oral texts connected to 
memorization is repetition. Repetition was used to a larger extent in preliterate 
text (Lord 1960). This is a good reason for assuming an indication of oral origin 
of a text. A formal characteristic of the structure of epic texts is that they are 
most often composed in lines and half-lines, as verse texts. Verse text is found 
across cultures although rules of rhyme and rhythm are language specific. Here, 
patterns of verse-text such as rhyme, meter, the (re)use of particular collocates 
and syntactical structures or more precisely, a high repetitiveness on virtually 
all linguistic levels, entails a constantly high rate of priming’. This ensures the 
quick and easy retrieval of these items from memory whenever needed. That 
these structures involve repetition/recurrence in its various forms is an inher- 
ent requirement, as Duggan (1973) points out: “The oral poet [...] has a good 
motive for repeating himself with stylized phrases, namely the need to sing 
verses before a demanding audience at the rate of ten to twenty decasyllabic 
lines per minute, a pace far too rapid to permit the constant generation of unique 
word combinations”* With the invention of script, the need for memorization 
became gradually more obsolete, because knowledge could be externalized, that 
is stored in books and from there be accessed any time. Verse text continued to 
be used, but became increasingly less repetitive. Comparing modern lyric texts 
to epics recorded at the beginning of the chirographic age in verse, Lord (1960) 
remarks about born-written verse texts that there “may be repeated phrases, but 
the proportion of them to the whole is small”. Characteristics of oral literature 
are enumerated further by Lord (1960) and together with a broader analysis form 
the so-called Oral Formulaic Theory (OFT). This is the dominant theory for oral 
texts. The qualitative structural differences between texts which relate to oral 
literature, according to the OFT, and those which do not can be visualized and 
are the subject of the ReAF. Finnegan (1992) gives a detailed account of findings 
about oral literature or oral poetry in all its scope. She stresses the diversity of 


2 The difference between recurrence and repetition is contextual; one and the same 
linguistic unit can be repeated verbatim but take on a different pragmatic function as 
the local context differs. 

3 Priming is a term used in psychology to refer to pre- or coactivation which enables 
quicker retrieval from memory. A person who has just heard the word cat can pro- 
duce the word dog quicker from memory than without this prior acoustic exposure 
since both animals belong to a semantically similar category which is activated along 
with cat. cat primes dog. 

4 Reversing this statement sheds light onto the generally more thought-over character 
of written (especially printed) texts, where authors pause and think, reformulate and 
rearrange texts to form a coherent outcome. Once spoken, a word cannot be cancelled 
or rearranged. 
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this genre and remains skeptical about whether there is one definition that can 
be put forward explaining all diversity of oral transmission. Goody (1987) shows 
how even texts we perceive as born-oral might have nevertheless been deeply 
structurally influenced by writing and the devices, such as lists, it fosters. How- 
ever, Lord (1960) gives a guideline for how to test whether a text relates to oral 
rather than written composition. 

The ReAF intends to follow Lord (1960), and to provide an aid in classifying 
texts as born-oral or born-written, but does not remain neutral about Goody’s 
findings or Finnegan’s objections. Finnegan (1992) mentions that epics are typ- 
ically verse: “ Pure’ epics like the Iliad and Odyssey are totally in verse”; in this 
sense the ReAF is primarily designed for the analysis of verse texts as such, 
whether influenced by the emergence of writing or not. 


2. Recurrence in Oral Text 


In a world without script, ensuring or controlling for exact repetition of longer 
texts exceeds the capacity of memory and is therefore impossible. How would 
one verify, if not from memory, that each and every word in two performances 
of the 14.000 verse lines of the Odyssey had been the same? And why should 
rigid identity of a text be of importance at all? Obviously, people from oral tra- 
ditions did not care much about exact text identity of longer texts such as epics. 
Bards produced a slightly different text each time they performed the same story. 
However, many factors influenced the kinds of variation that occurred. Instead 
of a fixed text as in later (after the onset of writing) performance-based genres 
(e.g. theater) the oral poet could have presumably memorized a series of events 
(“Hero goes to war” - “Hero gets lost” - “Hero returns”), which when performed 
were marked with recurrences of various repertories. Such repertories presum- 
ably encompassed, for instance, common sub-plots. When a bard had enough 
time, he would make extensive use of adjectives and sub-plots when retelling 
events, which increased repetitiveness. If he had less time, he used less orna- 
mentation as termed by Lord (1960). Apart from other non-recurrent character- 
istics of oral poetry, such as inconsistencies, e.g. where a minor character which 
had already died reappears, Culley (1967), bards would use repetitive structures, 
so-called formulas, being non-rigid word groups expressing similar content. This 
is a concept described by Parry & Parry (1987) in close detail, an example being 
Homeric heroic epithets identified as Regular Expression: (66Aov|v&pog) riyaye 
(Sios Odvooevg|®oißog AzóÀAA ov). 

The author of a written verse text does have the time to think about the 
most appropriate word to place in a certain position, instead of being restricted 
to using the one which comes most quickly to mind. Thus, since bards used 
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limited repertories and were furthermore forced to use those words which came 
most quickly to mind, written texts can be considerably less repetitive than oral 
verse texts. 


3. The Visualization History of Verse Text 


It has to be mentioned at the start that script itself is a visualization of sound. 
This is naturally the first visualization applied to verse texts, followed closely 
by the invention of the first visual prosodic boundary markers, such as dots. 
For verse texts, line breaks soon often supplemented or substituted the former 
prosodic boundary markers, which were kept in prosaic texts. The visual repre- 
sentation of poems using line breaks has crossed cultures and writing systems to 
become the dominant and most wide-spread form for representing poetry. This 
was stated by Culley (1967): “the unit of composition is usually the single line 
[...] a poem is made by line being added to line. [...] The line generally corre- 
sponds to a syntactic structural unit in that the end of the line coincides with a 
natural break such as the end of a sentence or clause” Thus, apart from its other 
characteristics, from an aesthetic/visualization viewpoint, verse text constitutes 
a distinguished class of texts. This class can be further subdivided into bardic 
and non-bardic verse text. Although text itself is already a visualization, only 
abstract visual transformations allow for a holistic overview of properties of the 
whole text (at least if it exceeds a certain size). Parry & Parry (1987) and Lord 
(1960) applied some form of visualization, namely underlining the repeated and 
near-repeated passages of the beginning of the Iliad and other epics, see Figure 1. 

Lord related this extended-scriptural visualization of verse closely to a test for 
the classification of oral poetry. His visualization was accepted or slightly modi- 
fied by many scholars working on orality in subsequent years, for instance Cul- 
ley (1967), Kailasapathy (1968), Benson (1966), Magoun (1980). A holistic exten- 
sion of Lord’s visualization to an entire epic may have been technically possible, 
but was never produced. It would have presented another problem with long 
epic texts: overview. In fact, Whallon (1969), Duggan (1973) and later Finnegan 
(1992) criticize the confinement of this visualization to text excerpts. Finnegan 
(1992): “Otherwise no overall analysis has been completed, nor any systematic 
sampling undertaken.” Whallon (1969): “They [the visualizations] are not reliable 


> 


because there is always doubt whether the specimen underlined is typical [...] 


5 The invention of the line break as a visual separator interestingly seems to be a fea- 
ture, which is not necessarily loaned into a new language when a writing system is 
taken over, but which could have been (re)invented several times. The cross linguistic 
spread of line breaks underscores their visual effectiveness. 
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Figure 1: A. B. Lord, The Singer of Tales, 1960, p.143, Scan, 
(Copyright Harvard University Press). 


He enumerates instead all repetitions in long sequences consisting of elements 
such as “1:13-16 = 1:372-375”. A complete list of a work’s repetitions in this way 
is again not easily exploitable in terms of a visual overview. The completeness of 
it is however superior to that of text excerpts. 

To summarize, while a manual visualization line for line, like the one Lord 
proposed is feasible for smaller sections of text, it would be cumbersome for a 
complete text. Such a visualization of roughly 14.000 lines of the Odyssey would 
be completely unsatisfactory in terms of an overview.‘ 


6 Foley (2002) mentions another individual visual rendering of oral poetry, yet not 
focussing on repetitions, which is not suitable to generate an overview over many 
lines. 
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In the digital age, especially since programmable visualization techniques 
have become widespread, a holistic analysis/overview is no longer difficult to 
achieve. ReAF aims at providing consecutive proof of the concept of visualiz- 
ing repetition, as attempted by Lord (1960). The problem that ReAF will have 
to overcome is the need to display an overview on the one hand, while on the 
other hand allowing for examination of the text itself, which was solved by Lord 
through a confinement to text excerpts. 


4. Verbatim Repetition and Bag of Words 


In ReAF, verbatim repetitions, that is verbatim repeated verses, are the main fea- 
ture. They are colored in the same non graded-color. For non-verbatim repeated 
verses, the words of each verse are used in a bag-of-words representation, that is, 
an unordered set of the words, where any positioning information is discarded. 
Depending on the absolute maximum number of shared words with any other 
verse,’ each verse’s cell is marked with color grading. Consider two lines in two 
different performances of the same song by the same bard in Lord (1960): “Nit’ 
mu porez ni vergiju daje” and “Nit' mu porez daje ni vergiju” are different in 
terms of verbatim repetition but the same in terms of bag-of-words repetition. 
The same scenario is used for repetition within one song. The choice of color for 
verbatim and bag-of-words should be sufficiently different so as to not confuse 
the reader. 

The number of highly frequent (function) words such as articles, leads to 
inter-verse repetition even in modern text sentences, especially between verses 
which are very different. Language itself is redundant when robustly conveying 
a message. It is repetitive in using the same words for the same references. In 
other words, there is a base rate of repetition. Since the ReAF is designed to 
highlight repetition induced by oral formulaic principles, the natural repetition 
of language can be seen as noise in this context. This noise can be limited by 
restricting bag-of-words coloring by means of a threshold. Trigrams and other 
ngrams have been shown to be highly indicative of language (see for instance 
(Cavnar & Trenkle 1994)). Excluding those verses which share less than three 
words from a visualization is an ambiguous reduction; it excludes some oral struc- 
tures such as epithets, but excludes also many arbitrary repetitions. Comparing 


7 The more formulaic a verse, the larger this number could get through the same items 
and protagonists being combined in another verse. This number is also printed on the 
cell. Another approach would be to color according to the overall number of repeated 
words or using some measure such as the Jaccard similarity, while keeping the num- 
ber. Many more approaches thinkable. 
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the visualizations resulting from a non-restricted bag-of-words repetitiveness 
visualization with a restricted one, where the boundary is set to above 3, this 
setting clearly reduces visual overcrowding while higher thresholds result in 
sparse coloring. Further research employing a usability study will be needed to 
determine the best measures and thresholds. For the time being, the threshold 
is heuristically set to three, but the user can modify this. Likewise, the user can 
choose a color theme which accords to the principles of effective presentation of 
graded color schemes, as used, for example, in web design. 


5. How to Quantify the Oral 


We compared various different measures for how indicative they were of an oral 
composition. One major problem with this is the uncertainty concerning the 
classification of an epic as born-oral. A gold standard data set for this purpose 
would ideally contain not only relatively uncontroversial specimens, it would 
also be balanced in language, text length and other factors. Since it is outside 
the scope of this article to create such a set, a few well-known examples which 
were available online (some as base texts of critical editions) have been consid- 
ered. The main contribution of this article is to demonstrate how overview and 
details about recurrence can be combined holistically into a visualization. This 
section is a small side-note on possible measurements for orality (and repeti- 
tivity, see for instance Altmann (1988)) which would have to be tested for sig- 
nificance as soon as a suitable data set is compiled. One of the tested measures 
ranked the texts roughly in accordance with their historically assumed orality; 
the verse type/verse ratio (VVR). This bares a superficial similarity to the Type 
Token Ratio (TTR). It measures the number of verse types divided by the number 
of verses. If no verse is repeated the value becomes 1, if there is only one verse 
type repeated n times, the measure becomes 1/n, which converges against o, and 
the value range is thus ]o,1]. While the TTR is text length dependent, verses do 
have different dynamics and distributions. Another measure we tested appears 
in (Bennet et al. 2003): pairwise comparison of chain-letter texts is achieved by 
setting the compression size of a text using a compression algorithm. While this 
measure is readily applicable within one language, the different UTF-8 block 
sizes and memory sizes lead to them not being readily comparable between lan- 
guages using different writing systems. 

VVR values: Odyssey 0.92, Iliad 0.94, Beowulf 0.98, Kalevala: 0.95, Chan- 
son de Roland 0.99, Psalms 0.97, Rg Veda (beginning) 0.85, Shahname 0.96, 
Parzival 0.99, Heliand 0.97, Knight With The Tiger Skin 1, Divina Comedia 1, Faust 
0.98, MacBeth 0.99, Luthien 1. For the majority of the most likely born-oral texts 


(bold), the VVR measure tends to be y low, for born-written texts (underlined) 
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it is on average higher. There are counter examples, which must be explored 
visually and qualitatively for the probability of the written medium interfering 
with the mode of composition. For the time being, measure and visualization are 
thus meant to be tools for exploration - not classifiers — designed to help the 
researcher of a specific text to qualitatively evaluate his/her text. 


Kalevala Heliand Vepkhistqaosani Divina Comedia 


0.85 


0.95 0.97 


= 


1 


Figure 2: Some selected texts in ReAF overview with VVR value 
(Copyright A. Hoenen). 


6. Technical Details of ReAF 


ReAF is a dynamic heatmap with extended features such as text display on 
demand. While there is software such as Rš generating heatmaps, for the testing 
of hypotheses connected with text genesis or text structure, using them without 
subtle programming intervention is problematic. It requires movement back and 
forth between the textual and the visual representation, meaning the user must 
locate certain positions himself each time, jumping from one to the other repre- 
sentation. This is a process prone to errors, especially considering verbatim rep- 
etitions which occur close to each other, or thinking about the prevalence of line 
skips in manuscript copying, or even regressions in eye-movements. The prob- 
lem is furthermore one of unequal dimension or scaling, where the text must 
be scrolled in order to be read, whereas the heatmap can only be of use once it 
presents an overview and therefore displays the whole text or larger portions of 
it in a small display area (figure 3). 


8 http://r-project.org 
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Figure 3: Hoenen ibd. Heatmap generated with R (Copyright A. Hoenen). 


Each row and column in Figure 3 represent a chapter of the “Odyssee” and the 
coloring refers to the maximum proportion of shared words observed in any 
verse pair of the two chapters (with the diagonal set to o). 

ReAF tries to resolve both the need for such an overview and the need for 
close reading. It uses HTML, more precisely the rendering of tables in HTML. 
If in an HTML table, two rows do not have the same number of cells or the cell 
content differs in length, there is no automatic adjustment of breadth of all rows 
to one length, although adjusted table cells can easily be generated. This lack 
of specification allows a presentation of structures with unequal numbers of 
subunits, such as chapters with unequal numbers of verses. The advantage of 
this rendering is that differences in length are immediately discernible. ReAF 
visualizes verse text by representing one verse as one table cell, with a row rep- 
resenting a chapter or paragraph (or in case of plays the speech of one character). 
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An extension in JavaScript allows the user to read the text by expanding the 
cell content by double clicking. A second function dynamically colors the sister 
verses in one color for verbatim repetitions, and in another for bag-of-words-rep- 
etitions.’In this way not the whole text, but only the passages of interest are 
readable, allowing the size of the display to be small enough to still exhibit an 
overview. On mouseover, the sister verse numbers are displayed to facilitate 
searching. When exploring single cells, the user can choose a color scheme and 
decide if successive cells should be colored additionally, see Figures 4 and s. 
From the perspective of automated visualization resolving the conflict 
between text reading or gaining an overview, the ReAF fulfils the requirement 
formulated by Mazza (2ooo): “It is necessary for a picture to give the reader as 
much data as can be processed quickly, using as little space as possible” Fur- 
thermore, Shneiderman (1996) postulates a sequence as the Visual Informa- 
tion-Seeking Mantra: “overview first, zoom and filter, then details on demand.” 
This sequence is one that the ReAF complies with, as will be seen in the follow- 
ing example. Furthermore, this is a way to combine distant reading and close 
reading in one interactive, digital visualization. (Mis)using HTML in this way 
is however not ideal and more suitable implementations are obviously possible. 
Text collation in digital scholarly editing, and established visualizations in this 
field represent possible repositories for more sophisticated technical backends. 


7. Application Scenario - Text Exploration of Born-written Text 


In the case of a born-written text, it is obvious that a repeated verse line can 
in principle be copied from a pre-existing instance on paper or from memory. 
Sometimes, the copied verse text precedes the first text genealogical appearance 
of the same verse text due to rearrangements made by the author. This is why 
in philology the term urstelle has emerged, referring not to the first sequential 
occurrence of a verse or an ensemble of verses, but to the one place in the text 
where the oldest/first authorial version of the respective verse is located. One 
example points to an investigation of two similar verses seen through visual 
inspection using ReAF’s rendering of Goethe’s Faust. This example is simple and 
does not give new insights into the text genesis of Goethe’s Faust or any of his 


9 To avoid long “loading” intervals, the repetition information is previously computed 
in the Java programming language and stored directly into the HTML code, which 
may produce larger files. In this way, the user only has to wait for loading the docu- 
ment upon opening, not at each computational step. 
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Figure 5: Hoenen ibd. ReAF The Knight With the Tiger Skin, close reading 
(Copyright A. Hoenen). 
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preferences. Furthermore, the text section can be seen whilst reading without the 
need for a visualization. Faust, Chapter 3, Prologue in the heavens: 


Ihr Anblick gibt den Engeln Stärke Der Anblick gibt den Engeln Stärke 
Wenn keiner Sie ergründen mag; Da keiner dich ergründen mag 

die unbegreiflich hohen Werke Und alle deine hohen Werke 

Sind herrlich wie am ersten Tag Sind herrlich wie am ersten Tag 


These two passages could have been separately and spontaneously created. 
However, since Goethe is not an oral poet and the amount of verbatim repetition 
in his works is fairly low when compared to Homer, an alternative hypothesis 
would be that the verse has been created only once, and that the other occur- 
rence of the near same sequence has resulted from a copy of the urstelle and an 
abridgement. Thematically, the subject of the verse is the sun and/or the Lord, 
the first sequential occurrence being one of three angels singing a praise hymn, 
and the second occurrence being a chorus of these angels repeating - not ver- 
batim - the last four lines of the first of the three angels. It remains a question 
for German studies to determine the genesis of the work and which of the two 
occurrences is the more probable urstelle, drawing from resources such as study 
notes of the author. 

Using the ReAF for born-written verse text such as Faust, see Figure 6, 7 and 
8, one does not immediately explore places such as the one discussed but spots 
the obvious preference of Goethe’s in Faust for verbatim repetition in close vicin- 
ity which works of other composers of written verse text such as Dante’s Divina 
Comedia do not show, serving as an entry point to such closer exploration as we 
have discussed with a simple example. 


8. ReAF and Preprocessing 


Avestan, an extinct Indo-Iranian language maintained as liturgical language by 
the Zoroastrians, formed the basis for some individualized renderings for the 
ReAF, whose production provided the initial impulse for its development. Skjær- 
voe (2012) connects aspects of the Avestan written witnesses to the OFT. Render- 
ings were based on manuscripts rather than on editions. Lost verses, the extent of 
which have been determined through numbering, and similar texts, were marked 
in black. In one rendering, prayers were visualized in order to understand the 
text structuring function of this special class of recurring elements. 

The Avestan manuscripts are mostly written in more than one language, 
where e.g. Middle Persian commentaries were inserted into the original text. 
Visualizing the positions of the Middle Persian text in another rendering allowed 
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Figure 6: Hoenen ibd. ReAF Faust overview (Copyright A. Hoenen). 


269: 

die 
lunbegreiflich 
hohen Werke 


Ë Ë 3 1 
2 2 1 1 
Ë Ë z s —JBEBBPEPEPPE 


Figure 7: Hoenen ibd. ReAF Faust, close reading (Copyright A. Hoenen). 
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Figure 8: Hoenen ibd. ReAF Faust details, verbatim repeated in red, near 
verbatim in yellow (Copyright A. Hoenen). 
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for an intuitive understanding of the text structure, induced or perceived through 
them, see Figure o. 

One characteristic of the Avestan texts is that the actual performances are 
so repetitive, that priestly scribes abbreviated multiple repetitions in statements 
of a meta comment in another language, such as “from here to verse X 3 times”; 
one rendering of the ReAF spelled out these implied repetitions and colored the 
relevant cells in light grey, so what the ReAF actually represented was not the 
manuscript text but the intended oral ritual. 

A lemmatic repetition ReAF, where instead of the words, their lemmas have 
formed the basis for the visualization that was produced. From this, a second 
visualization highlighted only those verses which were repeated on a lemma but 
not on a verse basis, which brought forth previously undiscovered principles of 
formulaic and text genetic alternations, see (Jügel 2015). 

These individualized ReAF renderings may serve as examples of what the 
ReAF can be used for when investigating individual texts, and when preprocess- 
ing other data. Other renderings, such as ones displaying syntactic similarity, are 
among possible additional preprocessing steps. 


9. The ReAF principle as a Generalized Visualization Technique 
for Texts and Language 


Instead of visualizing only verse text, the ReAF can be used to visualize text 
in general. The question arising immediately after breaking free of the “ready- 
made” chunks called verse, is how to define basic units of visual representation. 
Unlike verse, where the content is regulated very strictly, as in case of Greek 
meter which has a very rigid, almost fixed number of syllables, in prose text, 
sentence length can differ drastically and it is usually only coincidence when 
two sentences have the same number of syllables. In other words, when the 
ReAF was applied to verse it did not transform textual information on verse 
length very much, allocating the same amount of visual space to each cell in the 
overview, but for prose text this may differ. To summarize, using the ReAF for 
non-verse text may mean having to compensate for such idiosyncrasies of visu- 
alization. In the following its application to non-verse text is outlined. 


10.Reference Terms 


As a fictional example, the visualization of reference chains is presented. This 
example is similar to a visualization for reference terms based on trigrams 
invented by Stede (2007). While Stede’s visualization does not supply the close 
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Figure 9: Hoenen ibd. ReAF for Avestan, showing where the Middle Persian 
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Figure 10: Hoenen ibd. ReAF as general visualization, reference chains 
(Copyright A. Hoenen). 
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reading facility, the overview in ReAF looks quite similar. It has, however, been 
created absolutely independently without prior knowledge whatsoever and any 
similarity is purely coincidental. Such independent creation of a similar visual- 
ization may be a good indicator for its visual effectiveness. 

When visualizing reference chains, it is assumed, that a sentence is a basic 
unit and that sentence length is negligible. A Wikipedia article about Sierra 
Leone in German from the 3rd of October 2014, is taken and annotated for the 
occurrence of the title and its (anaphoric) references. Then a visualization is 
constructed, where the type of reference (noun, pronoun, other) is denoted by 
color and the number of references within the sentence printed onto the cell, see 
Figure 10. 

With an additional table row summing-up the numeric values at the end, 
it can immediately be seen that the first sentence of a larger textual unit, in 
our case in particular and most probably in general, has a higher occurrence 
of direct reference, which becomes more intuitive via this visualization. Thus, 
the summary row is one additional customization that can be employed when 
adapting to a specific research question. An elaboration would be to add a clus- 
ter analysis connecting the columns, as is often supplemented in heatmaps (but 
not in HTML tables). 


11.Summary 


An initial version of an interactive visualization has been presented (ReAF 1.0). 
The visualization combines distant and close reading, is platform indepen- 
dent and can be extended through the use of web technology. It can be used 
to explore, analyze or compare both born-oral and born-written texts. It can 
also be used for prose text. The ReAF is an interactive visualization which is 
only feasible in the digital medium and can thus be termed a second generation 
digital humanities text representation system, not merely imitating print, but 
extending its capabilities. 
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Odyssey: http://titus.uni-frankfurt.de/ 08.09.2014, oral acc. to Lord (1960) 

Iliad: http://gutenberg.spiegel.de 08.09.2014 oral acc. to Lord (1960) 

Beowulf (halflines): http://www.humanities.mcmaster.ca 26.09.2014 oral acc. to 
Lord (1960) 

Kalevala: http://sacred-texts.com/ 08.09.2014 mainly oral acc. to Foley (2012) 
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(1960) 
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Shahname: http://fa.wikisource.org 08.09.2014 acc. to Foley (2002) oral, 
Yamamoto (2003), Rubanovich (2011) more complex assessment 

Parzival: http://titus.uni-frankfurt.de/ 08.09.2014 

Heliand: http://titus.uni-frankfurt.de/ 08.09.2014 

Knight With Tiger Skin: http://titus.uni-frankfurt.de/ 10.09.2014 

Divina Comedia: http://www.filosofico.net 08.09.2014 written 

Faust: http://www.gutenberg.org/ 08.09.2014 written 

MacBeth: http://www.gutenberg.org/ 08.09.2014 written 

Luthien: http://allpoetry.com 08.09.2014 written 
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A Constellation and a Rhizome: Two 
Studies on Toponyms in Literary Texts 


Abstract Although the attention of linguists is commonly drawn to forms 
other than proper nouns, the significance of place names in particular exceeds 
the usual frame of deictic and indexical functions, as they encapsulate more 
than a mere reference in space. In this article, two different examples are pre- 
sented in order to understand them, along with two practical examples of visu- 
alization in literary texts from the beginning of the 2oth century. Research 
on toponym extraction and linkage is discussed from an interdisciplinary 
perspective, as digital literary studies are not mere numeric accounts: if they 
deal with detecting, counting, and projecting occurrences, one also ought to 
describe and criticize the detachment provoked by “blind” computer-based 
thinking. 
The first case consists of a preliminary study of travel literature based on 
Richthofen’s Travel Journals from China (1907). The resulting map retraces the 
path taken by the author in the Shandong province by combining coordinates, 
sequences, and a sense of time. In order to critically analyze this synthesis the 
concept of constellation is introduced and discussed. The second study focuses 
on a complex work, the literary magazine Die Fackel (1899-1936) with the par- 
ticular example of co-occurrences of toponyms. The paths drawn on the map 
depict chains of thought and lines of flight. The result is understood through 
the concept of the rhizome, by which heterogeneous information can be con- 
nected and displayed. The finality of Visual Linguistics does not reside in an 
apparatus but rather in the substrate of interpretable representations which put 
words into perspective. 


1. Introduction 


Although the attention of linguists is commonly drawn to forms other than 


proper nouns, the significance of place names in particular exceeds the usual 


frame of deictic and indexical functions, as they embrace more than a mere ref- 


erence in space. The value of toponyms is highlighted in testimonies gathered 


in the field, such as the comment by Ulahi from Papua New Guinea who asks: “I 
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haven t heard your land names, so who are you?” His study on Bosavi language 
leads Feld (1996) to the idea that “place significance neither starts nor ends with 
the linguistic referentiality of placenames”, and that “there is considerable varia- 
tion in how names hold and unleash significance”. 

In Western tradition, a current of reflection, whose origin can be dated back 
to the 1960s, has provided the theoretical foundations of the spatial turn, whose 
epitome is the concept of space as emergent rather than existing a priori, and 
composed of relations rather than structures (Warf 2ooo). As Foucault described 
in a seminal lecture: 


“Nous sommes à un moment ot le monde s’éprouve, je crois, 
moins comme une grande vie qui se développerait à travers le 
temps que comme un réseau qui relie des points et qui entre- 
croise son écheveau.” (Foucault [1967] 1984) 


Foucault further explained that “our epoch is one in which space takes for us the 
form of relations among sites”. As a consequence, both the definition and impor- 
tance of space have been re-evaluated throughout the humanities. 

More recently, the emergence of GeoHumanities (Dear et al. 2011) or Spatial 
Humanities (Bodenhammer et al. 2010), has prompted the exchange of research 
objects between disciplines as well as enforcement of the spatial turn in prac- 
tice through specific methods of analysis. Although some observe that there is 
“remarkably little overlap between the digital humanities community and the 
spatial history community” (Mostern & Gainor 2013), the common denominator 
seems to be the will to open up new spaces and experiment in a transdisciplinary 
perspective: 


“The parallel disciplinary structure of German-language Liter- 
aturwissenschaft and linguistics is not merely anecdotal; rather, 
it is an index of the necessary interchange of methodologies 
and content which holds beneficial possibilities for both fields” 
(Dominguez 2011) 


Following these premises, I wish to present two studies that center on the visua- 
lization of place names in literary texts, with particular emphasis on the concept 


1 “Weare at a moment, I believe, when our experience of the world is less that of a long 
life developing through time than that of a network that connects points and inter- 
sects with its own skein.” http://foucault.info/doc/documents/heterotopia/foucault- 
heterotopia-en-html 
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of visualization, that is on the processes and not on the products (Crampton 
2001). As a consequence, I feel the need to present them with a much needed 
critical apparatus, by giving a theoretical perspective on what is being shown 
and seen: Firstly because digital methods in humanities ought to be criticized 
(Wulfman 2o14) and secondly, because the cartographic enterprise bears both a 
thrilland a risk: on the one hand “adding more to the world through abstraction”, 
and on the other hand “adding to the riskiness of cartographic politics by proli- 
ferating yet more renders of the world” (Gerlach 2o14). 

The remainder of this article details theory and practice with the following 
structure: First, research on toponym extraction and linkage is discussed from an 
interdisciplinary perspective; then the constellation paradigm is presented along 
with a practical study on travel literature; finally, the notion of the rhizome is 
introduced and presented by means of a diachronic study. 


2. Drawing points and lines out of words 
2.1 Distant cartographic reading on relative maps 


Progress in fulltext geocoding, also known as “geoparsing” or “geographic infor- 
mation retrieval” (Leetaru 2o12), is tightly linked to progress in mapping systems, 
mostly thanks to a technology-driven evolution (Juvan 2015) as Geographic 
Information Systems (GIS) and series of tools come from other disciplines. An 
underlying assumption resides in the belief that understanding language and lit- 
erature is not accomplished by studying individual texts, but by aggregating and 
analyzing massive amounts of data (Jockers 2o13). Because it is impossible for 
individuals to “read” everything in a large corpus, advocates of distant reading 
employ computational techniques to “mine” the texts for significant patterns and 
then use statistical analysis to make statements about those patterns (Wulfman 
2014). One such is Moretti (1999) who pleads for “a geography of literature” and 
“distant cartographic reading”. 

There is however a notable difference between literary geography and lit- 
erary cartography, the first one being essentially anecdotal and auxiliary, if not 
ancillary (Juvan 2o15). Although literary geography has been existing for more 
than 100 years (Piatti et al., 2011), much work still has to be done to define and 
establish literary cartography, an interdisciplinary field which has been evolving 
at an exponential pace over the last decade (Caquard & Cartwright 2014). 

Concerning the maps themselves, the consensus in the research community 
has evolved towards a relativity in construction and uses of maps: “post-rep- 
resentational cartography” (Rossetto 2014), where there is neither a “ground 
truth”, nor a “cartographic truth”, and where “the map is not objectively ‘above’ 
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or ‘beyond’ that which is represented” (Crampton 2001). Although the maps 
seem immediately interpretable, they are not an objective result but a construct, 
the result of filtering, “a connection made visible” (Moretti 1999). As such, car- 
tography is not the realization of static maps, but rather the description of emer- 
gent structures, and there is no single or best map. The paradigm of geographic 
visualization stands in opposition to the tradition: 


“Traditional cartography has emphasized public use, low inter- 
activity and revealing knowns, while visualization empha- 
sizes private use, high interactivity and exploring unknowns.” 
(Crampton 2001) 


In literary studies, it is understood that maps are only the beginning of explor- 
atory work, not only following from said paradigm but also out of a defiance 
against quantitative information of an additive, cumulative nature about poten- 
tially heterogeneous phenomena: 


“Whenever literary scholars screen, read, interpret and com- 
pare the maps, they do what is regarded as one of their core 
competences: to consider carefully ambiguities, to compare, to 
contextualise, to shed light on historical references, to juxta- 
pose several readings, to combine methods and tools.’ (Piatti 
et al. 2011) 


Counting words, in this particular case place names, does not appear to be 
enough for the researcher in literary studies. Even if the map in itself is relative, 
being “less important than the process of making it and using it” (Caquard & 
Cartwright 2014), it plays an ambiguous part in distant reading, since it has to 
be flexible enough to adapt to new contexts and analyses, while remaining exact 
and in this sense trustworthy. The information it contains and reveals cannot 
be verified on a point-per-point basis, yet it can be the starting point of a com- 
prehensive interpretation. For this reason, the ability to detect and project place 
names with reasonable accuracy is paramount. 
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2.2 Placing points: On the extraction of toponyms 


In the field of information extraction or information retrieval, named entity rec- 
ognition is a set of text mining techniques designed to discover named entities, 
connections and the types of relations between them (Chinchor 1oo7). The par- 
ticular task of finding place names in texts is commonly named place names 
extraction or toponym resolution. It involves the detection of words and phrases 
that may potentially be proper nouns as well as a second operation classifying 
them as geographic references (Nouvel et al. 2015). A further step, geocoding, 
resides in disambiguating and adding geographical coordinates to a place name: 


“At its core, fulltext geocoding involves scanning a body of text 
to identify potential geographic references and then using an 
external knowledgebase, called a ‘gazetteer’, and document 
context to disambiguate and convert the references to a geo- 
spatial form” (Leetaru 2012) 


Named entity resolution often relies on named-entity recognition and artificial 
intelligence (Leidner & Lieberman 2011). However, knowledge-based methods 
using fine-grained data, for example from Wikipedia, have already been used 
with encouraging results (Hu et al. 2014). Work by Efremova et al. (2015) on 
family relationship extraction from historical documents proves that it is pos- 
sible to use a name dictionary as well as patterns to perform the extraction and 
remove ambiguity in a robust way, although the documents span around 500 
years. Pouliquen et al. (2006) demonstrate that an acceptable precision in the 
detection and disambiguation of place names (76% in their study) can be reached 
by including information such as distance, importance, immediate lexical con- 
text, and main places of the text to be analyzed. 

The first study below relies on manually annotated data, while the second is 
based on automatic extraction. One of their common denominators is the neces- 
sity to construct appropriate gazetteers, that is mapping historical and possibly 
not yet standardized variants to a canonical standard from which to derive geo- 
graphic metadata. Another common denominator consists of the connections 
that are drawn between the extracted toponyms in the exploratory sense of geo- 
graphic visualization. 
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2.3 Connecting and dividing: the ambiguous nature of lines 


Maps are mostly projected in Euclidean spaces where two points are connected 
by a single line. By extension, the word line defines a series of connected points 
on a plane, potentially both linking and separating. Lines can enforce and divide 
when maps are used as instruments of power, which is another reason why the 
proponents of post-representational cartography call for a change of perspective. 
For example, lines that draw state boundaries are increasingly called into ques- 
tion, especially concerning historical states and texts, as they fix an evolving pro- 
cess and convey a sense of immobility that fails to describe the past accurately: 


“We need to recognize that territorial maps of ancient states 
are an idealized projection of state authority rather than a 
depiction of the way in which ancient political domains were 
actually governed” (Smith 2005) 


In the framework of geographic visualization, advances have been made towards 
less static maps, with the wish to foster more flexibility on the map and in the 
mind of the reader, allowing for reflection out of the box and outside of the 
boundaries: 


“Recent attention to globalization, diaspora, ‘nomadism’, and 
cyberspace is showing us the need for new and powerful the- 
oretical work to replace, rather than simply supplement, the 
polemics and models produced by an academic collectivity 
concerned mostly with locatable cultures, bounded nations, 
and the imperial past” (Campbell 2002). 


What is true for the territory also holds true for the texts, linkages can be seen 
as “mappings and tracing imposed on the data” (Wulfman 2014). The lines may 
also reveal spatial patterns that would otherwise remain hidden in texts (Boden- 
hammer et al. 2010), or connect ideas, places, or peoples. As well as lines of force, 
there can also be lines of thought, traces figuring steps of reflection and analysis. 
This ambiguous nature calls for a differentiated approach. As long as the traces 
can be flattened, recombined, and superposed (Latour 1985), they allow for a sci- 
entific process of (re-)construction which is open to additions, changes of scale 
and perspective. 

Visualization of linguistic phenomena has to account for their changing 
nature relative to context and passage of time, thus going deeper than a mere 
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graph, a general and operative concept which usually implies a series of opera- 
tions performed upon it. Beyond the immediacy of nodes and edges, the relations 
may be expressed through the concept of network. However, precisely in the case 
of connections, the word “network” is to be used with caution as Latour (1999) 
suggests. Although it is ubiquitous in the terminology of the spatial turn, the 
now predominant interpretation in the sense of the World Wide Web, suggests 
an immediacy which is contrary to the status it had before. In most occurrences 
of the term, “meshwork” would be more appropriated than “network” (Ingold 
2007). In the following, two different modes of analysis featuring points and lines 
are presented. The potential superficiality of networks is carefully avoided as 
two related alternative concepts which both break the linear model of reflection 
(Wu 2009) are presented: the constellation and the rhizome. 


3. First study: Constellation 
3.1 The concept of constellation 


According to the words of De Certeau (1990), where the map splits, the nar- 
ration - as diegesis - traverses. Even if a map remains static in comparison to 
the movement of the diegesis, an attempt can be made to try and overcome this 
dichotomy. In this first study, a decision has to be made about whether to trace 
the line or not, which makes it a prototypical constellation, an assemblage of 
points which let figures and interpretations emerge: 


“As we make constellations by picking out and putting together 
certain stars rather than others, so we make stars by draw- 
ing certain boundaries rather than others. Nothing dictates 
whether the skies shall be marked off into constellations or 
other objects” (Goodman 1983) 


Stars and skies are here place names and come from the spatio-temporal frame 
of the narration in travel literature, a specific case which challenges the idea 
that “linkages are not in the data” (Wulfman 2014). In fact, it is possible to try 
to visualize a progression in the narration by bringing phenomena to light with 
annotation, and drawing lines between certain points to make patterns visible 
which would remain unnoticed otherwise. 
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3.2 Modus operandi 


The maps with an “indexical function” (Juvan 2o15), are part of a preparatory 
study on travel literature, which includes the annotation of place names from 
Richthofen’s Travel Journals from China (1907) in XML format and conform to 
the guidelines of the Text Encoding Initiative.” The outline below focuses on four 
weeks of travel in 1869 through the Shandong province (East China). Annotation 
of toponyms is done manually due to difficulties with non-standard transcrip- 
tions of historical Chinese names.’ For each identified name, Wikidata is used as 
reference. This is a document-oriented, collaboratively edited knowledge base 
operated by the Wikimedia Foundation (Vrandečić & Krötzsch 2014). As it is 
international and editable, it allows for the registration of linguistic variants, and 
metadata such as coordinates can be added. The type attribute defines whether 
the given location is to be represented as a point or as a surface. XML TEI attri- 
butes are used to encode direction of travel and sequences of visited places (next 
and prev), as well as information about time series (when and notafter). Finally, 
toponyms and metadata are extracted from the resulting XML document and 
combined with information from the authority file before being projected on a 
map. 


3.3 Result 


The result combines coordinates, sequences, and a sense of time, which are 
depicted on Figure ı by (respectively) points, lines, and a color scheme, pro- 
jected on a map using the cartographic software TileMill* and customized with 
CartoCSS. For the sake of clarity, current standard names in English are also pro- 
jected on the map, as well as historical borders of Chinese provinces in the ıgth 
century.’ Additionally, a color contrast distinguishes the land mass (Mainland 
China) from the sea (Yellow Sea and East China Sea). The size of the dots is in 
relation to toponym frequency in the text. Different shades of red illustrate time 
differences from the first to the fourth week of the trip, while gray points depict 
places which are named without having been visited., and another constellation, 
whose lines are not retraced, contrary to the itinerary. 


2 http://tei-c.org 
The preliminary steps have been performed jointly with Benno Wagner (Zhejiang 
University) and Li Liu (Stuttgart University). 
https://github.com/mapbox/tilemill 

5 The source is a prototypical spatial humanities project, China Historical GIS: http:// 
www.fas.harvard.edu/-chgis/ 
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Fig. 1: Four weeks of travel through Shandong in Richthofen's Travel Journals 
from China (1907). The size of the dots is in relation with toponym frequency 
in the text. Itinerary and time are expressed respectively with lines and sha- 
des of red. 
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In his chapter about Shandong, Richthofen writes “If you have a map of China, 
you will be able to follow my way to Chi-Fu [Yantai].° In fact, the constellation 
restores a feeling for time and space with its lines going from one sea to another, 
it re-inscribes the narration in situ. Interpretation is facilitated, and problems in 
the manual identification of places and in the coordinates associated with them 
are much more easily spotted on a map. The lines construct an itinerary, so that 
improbable constellations are easily singled out. This is particularly useful in a 
land of the scale of China and can also help manual disambiguation of ubiquitous 
or past toponyms. 

Dating from the time when the German Empire was present in China with 
the Tsingtau (Qingdao) outpost, Richthofen’s lines are not only exploratory, his 
constellations encompass space that is to be conquered if not militarily at least 
commercially. Lines are an abstract way of figuring the itinerary, but in this first 
step they do not express the liveliness of the narration or the events related to 
them: 


“Once a moment of rest along a path of movement, place has 
been reconfigured in modernity as a nexus within which all 
life, growth and activity are contained. Between places, so con- 
ceived, are only connections.” (Ingold 2007) 


It could be the task of spatial digital humanities to make these spaces appear and 
to restore a dimension of wayfaring and uncertainty in travel literature. 


4. Second study: Rhizome 
4.1 Concept and object of the study 


The second study stems from the concept of rhizome as formalized by Deleuze 
and Guattari (1980).” Its main principles are connection and heterogeneity, with 
no fixed order; “flat” multiplicity defined by “lines of flight”; “asignifying rup- 
ture”; and finally “cartography and decalcomania” (“tracing something that 
comes ready-made”). In order to fully understand the interest of the rhizome in 
visualizations, it is necessary not to limit it to a particular organic representation 


6 „Wenn Ihr eine Karte von China habt, werdet Ihr meinen Weg über I tschöu fu, Tsi 
Nan fu, Lai tschöu fu nach Tschifu verfolgen können“ (Richthofen 1907) 

7 This section has been adapted from preliminary studies (see Barbaresi 2017, Barbaresi 
2018). 
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of data, to a mere element in a grammar of visualization as Lima (2o11) presents 
it. In fact, there is a discrepancy between the realm of the visual which can be 
traced back to the surge in quantification that occurred in the Early Modern 
Era (Krämer 2010), the “pervasive visualism” (Feld 1996) in Western tradition, 
with its insistence on visual metaphors to describe and ascribe reason (Barbaresi 
2012), and the concept of rhizome. The lines of flight foster a real multiplicity 
and heterogeneity, and they are recombined, stopped and extended (“asignifying 
rupture”), which is why the rhizome is to be seen as a mode of experimentation 
rather than an interpretation, a representation, or an imitation (Antonioli 2010). 
The rhizome puts an emphasis on several aspects of post-representational car- 
tography as described above; it “pertains to a map that must be produced, con- 
structed, [...] and has multiple entryways and exits” (Deleuze and Guattari 1987 
[1980]). For there is no cartographic truth. The map has to be seen as a tool for 
the multiplication of accesses to reality. 

The concept of the rhizome has been used in corpus linguistics by Scharloth 
et al. (2013) to qualify discourses captured by collocation graphs. The authors 
performed significance tests to extract relevant collocations over the course of 
time, isolate clusters, and uncover lingering discourse elements. The concept of 
collocation and of subterranean word complex is a common one, however, the 
present study is different in its form and its content because it literally leads to a 
map, and most importantly because its text base is in itself rhizomatic. 

The reality which I wish to depict under the paradigm of the rhizome is a 
flat version of a diachronic corpus seen through the lens of toponyms (Barbaresi 
2017). The text basis for this investigation is the digitized version (AAC-Fackel 
corpus?) of the satirical literary magazine Die Fackel (“The Torch”), originally 
published and largely written by the satirist and language critic Karl Kraus in 
Vienna from 1899 until 1936. It is a complex work, both from a synchronic and 
from a diachronic perspective, where turnarounds, quotes, and multiples views 
play a central part. As such, it carries heterogeneity at its core and contains a 
considerable variety of toponyms (Biber 2001), which are highly significant due 
to the multinational nature ofthe Austro-Hungarian Empire and the later forma- 
tion of a territorially diminished state. Deleuze and Guattari wrote that we are all 
“traversed by lines, geodesics, tropics, and zones marching to different beats and 
differing in nature” (1987 [1980]). Kraus, in his constant balancing act between 
his origins, his beliefs, his sensibility and criticism, must have been perfectly 
aware of the acuteness of these lines. 


8 http://aac.ac.at/fackel It offers free online access to 37 volumes, 415 issues, 922 num- 
bers, comprising more than 22.500 pages and 6 million wordforms. 
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4.2 Modus operandi 


A treatment of toponyms has been described in Barbaresi & Biber (2016).’ The 
texts were digitized, manually corrected as well as manually annotated with 
respect to the names of persons and institutions, so that most proper nouns 
which are not place names were excluded from the study. The tokenized files 
of works to be analyzed were filtered and matched with the database by finite- 
state automatons. Toponyms were extracted using a sliding window (for multi- 
word names up to three components). A cascade of filters was used; current and 
historical states (e.g. Austria-Hungary); regions, important subparts of states, 
and regional landscapes (e.g. Swabia); populated places; geographical features 
(e.g. seas, valleys). Wikipedia’s API” is used to navigate in categories and to 
retrieve coordinates, which are completed by hand for states and regions. Sec- 
ond, current information is also compiled from the Geonames database’: data 
for European countries are retrieved and preprocessed (variants and place types). 
Disambiguation being a critical component (Leetaru, 2012), using an algorithm 
similar to Pouliquen et al. (2006), who demonstrated that an acceptable precision 
can be reached that way, suggesting the most probable entry based on distance 
to Vienna (Sinnott, 1984), contextual information (closest-country, last names 
resolved), and importance (place type, population count). 

The main areas of progress in the present endeavor are evolution in the gaz- 
etteers in order to bypass the disambiguation for a hand-picked list of places, as 
well as changes in the visualization. During the 2oth century there have been 
significant political changes in Central Europe that have severely affected top- 
onyms, meaning geographical databases lack coverage and detail. Consequently, 
the database I develop follows from a combination of approaches, gazetteers are 
curated in a supervised way to account for historical differences, and current 
geographical information is used as a fallback. 

The visualization below includes a subset of GeoCollocations (Bubenhofer 
2014), ie. collocations of toponyms. Co-occurrences of toponyms are extracted 
using a sliding window of fixed length and the maximal distance between two 
extracted place names is fixed at twenty tokens. Lines between co-occurring 
places are only drawn if the expressions are found within this window, and they 
follow the sequence by which they are used. This allows for the visualization 
of paths depicting chains of thought (Gedankengänge) as well as their intensity, 


9 This extraction of German and Austrian place names in historical texts is part of 
a cooperation between the Berlin-Brandenburg and the Austrian Academies of Sci- 
ences. 

10 https://www.wikidata.org 

11 http://www.geonames.org 
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well-trodden or seldom. Surfaces, for instance regions, cannot be represented 
because of evolution in the course of history but mainly because of the difficul- 
ties of linking surfaces without tampering with map readability. 


4.3 Result 


The concept of rhizome is particularly relevant for Kraus, as the Austrian polem- 
icist was always concerned by the multiple aspects of discourse and reality. In 
addition, his work as a whole evades distant reading processes due to the num- 
ber of citations and an ever present and extensive usage of parody. There are 
resolutely escapes and lines of flight in his work, so that it would be vain to 
design an authoritative, arguably objective cartography of The Torch. For that 
matter, it can be said that the experiment resulting in Figure 2 depicts a rhizome 
connecting heterogeneous information about the Weltanschauung of Kraus and 
his contemporaries. 

As in the first study, a map was made using the same software and a similar 
visual grammar. However, not only do the dots vary in color and size, the lines 
also express more than a simple relation since spatio-temporal information is 
mostly carried by the latter. The points depict extracted place names classified 
into categories (yellow: sovereign territories; orange: regions; green: populated 
places; blue: geographical features). The most frequent place names are printed 
out. The lines are of two different types with coastlines depicted in gray to give a 
sense of orientation, and as discussed above there are no borders on the map. The 
lines picture co-occurrences of extracted place names, the time scale is expressed 
in a span from light green to deep blue. In accordance with the principles of het- 
erogeneity and “asignifying rupture”, they are frequently interrupted. 

There are several problems with the mapmaking process. First, it is difficult 
to place symbolic names (e.g. Europe) and conflicting states of historical nations 
(e.g. Germany or Austria). Phenomena in the low-frequency range are filtered out 
due to their size on the map, but clusters may emerge. As regards the extraction 
in itself, potential conceptual caveats include previous times as well as fictitious 
places, especially names which can refer to mythological and actual places of 
Ancient Greece or Rome. However, toponyms can also be seen as lexical entries 
to particular themes, especially in the high-frequency range (“Austria-Hungary”, 
“German Empire”), as they also convey a sense of chronological evolution. 

While Die Fackel criticizes mechanical, instrumental language (Hirt 2002), 
what could be called “well-informed” linguistic instruments assist by material- 
izing dots or sequences, albeit not without “human” intervention. The resulting 
rhizome is not an authoritative cartography of Die Fackel, but rather an indirect 
depiction of the viewpoint of Kraus and his contemporaries. Drawing on Kraus’ 
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Fig. 2: Experiment on European scale projecting place names types and cooc- 
currences through time. 


vitriolic recording of political life, toponyms in Die Fackel tell a story about the 
ongoing reconfiguration of Europe. 

The zoomed-out version of the map conveys the strange impression that 
Europe is a force field on which points east and west are projected. The lines of 
force contain European countries and capitals. Their spatial patterns document 
an inclination for major cultural centers, thus confirming the findings of the 
previous study (Barbaresi & Biber 2o16), whereas the chronological dimension 
captures a major shift towards the end of publication. The force field intensi- 
fies as its range narrows, showing both the interplay of major European powers 
of the time and the emergence of transatlantic (westwards) and transeuropean 
(eastwards) relationships. This reconfiguration can be read as an intensification 
of tensions and a prefiguration of other schemes, this time of a military nature. 
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5. Conclusion 


Diagrammatic inscriptions are a point of linkage between thinking and intuition, 
between the “noetic” and the “aisthetic” (Krämer 2010). In the sense of the litera- 
ture mentioned on this topic, the present article is part of a global move to open 
up a productive joint research field. The maps referenced here are two possible 
realizations among others, whose goal is to uncover patterns and specificities 
which do not appear or are not easily retraceable during close reading.'” The 
differences in the extraction — manual vs semi- or unsupervised - as well as 
in the visualization methods - figurative vocabulary, scale, projection — do not 
account for differences in the data. The first study imposes constellations on a 
map, which is coherent with the views of the author of the travel journal, who 
himself relies on maps, abstraction, and underlying structures of power. The sec- 
ond one addresses a complex and heterogeneous work, which is best achieved 
with the notion of rhizome and the example of co-occurring place names. The 
resulting lines are neither uniform nor unequivocal. It may be difficult to draw 
a distinction between lines of thought and lines of force, as the same lines that 
are an instrument of delimitation and exclusion can also connect, extend, and, 
entangle. If there are lines of force in the present maps, then it is in a passive 
way, by yielding through their entanglement an accurate image of the complex- 
ity and multiplicity of the context. 

Digital literary studies are not mere numeric accounts. If on one hand they 
deal with detecting, counting, and projecting occurrences, on the other hand 
they have to include and criticize the alienation provoked by “blind” comput- 
er-based thinking. Because the rhizome is in part a structuralist notion, it may 
be computed or even computerized. Thus it is only superficially paradoxical that 
blind numeric analyses can be applied in order to make linguistic phenomena 
visible. The finality of “visual linguistics” is not an apparatus or a concept of an 
operational nature, but the substrate of interpretable representations which do 
not follow blindly numeric data but instead put things in perspective. 

The “human” interventions on the maps as well as the technical competence 
to do so replace the studies presented here in the hermeneutic circle of the phil- 
ological tradition. The difference between a mere data collection project and a 
research study resides precisely in the number and diversity of filters used, in 
the perspective chosen and the probable imperfections. In this regard, spatial 
and digital humanities can hopefully be equipped with the necessary conceptual 
background to critically observe toponyms resonating in space and time. 


12 The code written and the materials gathered for this study are available online: 
https://www.github.com/adbar/toponyms. 
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Content-based Analysis and Visualization 
of Story Complexity 


Abstract Obtaining insights into the style and content characteristics ofa novel 
can provide a benefit to a large number of users. Parents and teachers may be 
interested in finding appropriate books for children. Booksellers may want to 
assess the fit of a candidate’s artwork into their portfolio or determine the tar- 
get audience for their promotion activities. Literature scholars might discover 
particular stylistic similarities in writing patterns of different authors. For all of 
the above, manually reviewing the textual content of the books is a tedious and 
time-consuming task which can be achieved only to a limited level of detail. The 
combination of automated data analysis of literature and computer-based visu- 
alization techniques proves to be powerful in giving a quick overview as well as 
providing details ofthe visualized data. 

In this chapter we define the umbrella term Story Complexity, and outline the 
text data analysis required to describe properties of literature contributing to the 
numerous aspects of this term. We introduce a multi-faceted model of story com- 
plexity by addressing numerous aspects of writing, which can pose difficulties to 
human readers attempting to follow a storyline in fictional literature. Approxi- 
mations ofthese aspects are computed automatically with state ofthe art Natural 
Language Processing methods. We present the corresponding text data analysis 
methods, as well as giving examples of how the extracted data can be presented 
visually, so that the results ofthe data analysis can be perceived more effectively 
than by examining the extracted properties of text in a numeric way. 


1. Introduction 


Gaining an overview of a novel in terms of which aspects contribute to the diffi- 
culty, or ease, of following its story can be of benefit for multiple user groups. For 
example, a teacher may be interested in choosing appropriate reading material 
for the school class and can do so by considering the level of the language used, 
as well as the number of characters and parallel storylines, and the complex- 
ity and appropriateness of each character’s behavior. Alternatively, an e-book 
merchant may consider acquiring a new series of books to their portfolio and 
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wants to understand how well, based on previous demand, its writing style and 
content matches their existing customer base. A literature scholar, on the other 
hand, may be interested in a contrastive analysis of typical patterns in stories 
written by different authors or in different literary epochs. A common aspect 
for all these user scenarios is that the users are not necessarily interested in 
reading each of the novels in detail, but rather have an information need for an 


aggregated insight. 


Story Complexity 


How hard is it to follow a 
narrative in a book? 


Language Complexity Interaction Complexity Character Complexity 
How accessible is the How many storylines and How eg the 

language used? relations are there, how fast main protagonists? How do 
changes, how connected? they change in the story? 


Figure 1: Our understanding of the story complexity and its underlying 
dimensions. 


We approach Story complexity as a covering term that includes numerous 
aspects which we examine in individual sections of this chapter. In our model, 
we divide the complexity intuition into three broad areas, as illustrated in Figure 
1. The first area is the complexity of the language used. This includes the lexical 
choice of an author (e.g. if many rare or expert terms are used, increasing the 
likelihood that the reader won’t be familiar with them), the ease of reading on a 
surface level (e.g. usage of extremely long sentences or words), as well as some 
syntactic choices such as the dependency types or part-of-speech preferences 
(e.g. simplification of perception descriptions through interjections). 

The second area is the complexity of character interactions. Does the story fea- 
ture multiple main protagonists? Does it evolve at multiple locations or time 
periods in parallel? Are the characters in the parallel storylines interconnected 
in a complex way? How fast do the switches between storylines happen? Is the 
story linear in time? 

The third area of complexity is the behavior of each of the main characters 
per se. Is the character flat and predictable or does it have both bright and dark 
sides? Does it develop dynamically as the story progresses? Does it repeatedly 
show the same emotions? 
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The overview of which feature types we use to analyze text for each of the 
three complexity areas is illustrated in Table ı. The list of features should not be 
treated as exhaustive - there are multiple other options, which can contribute 
towards understanding the given properties. In this chapter, we aim to provide 
a broad overview of the possibilities for analyzing a fictional story. A reader can 
take inspiration from these and expand this framework to meet their own spe- 
cific analytical needs. 


Table 1: Overview of the features we use in each of the complexity areas. 


Visualization methods 
used 


Complexity type Natural Language Pro- 


cessing methods used 


Language complexity 


Readability measures, 
proportion of rare 
words, proportion of 
foreign words, density 
of entities, proportion 
of part of speech types, 
occurrence of topics 
discussed (topic lists, 
LIWC lexicon), emotions 
(NRC Emotion Lexicon), 
sentiment (Stanford 
Sentiment Analyzer), 
high-level verb and noun 
types (WordNet lexico- 
grapher files) 


paragraph squares 
bar charts 

aligned bar charts 
flow charts 


Interaction complexity 


Named entity recogni- 
tion and classification 
(person, location, orga- 
nization), entity graph 
(strength of relationship 
metrics) 


co-occurrence matrices 


Character complexity 


Speaker identification, 
emotion development 
analysis, sentiment 
development analysis, 
WordNet lexicographer 
files for individual 
character's activities 


bar charts 
flow charts 


The content of this chapter is structured as follows. First, we describe previ- 
ous work related to story complexity in general and previous work related to 
story visualization (Section 2). Then we discuss each of the three complexity 
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dimensions, specific work related to these, and how to implement text process- 
ing and visualization for each of these dimensions: Section 3 discusses the com- 
plexity of the language, Section 4 the complexity of the plot, and Section 5 the 
complexity of an individual character. In Section 6 we draw conclusions from our 
work and discuss possible future directions. 


2. Related work 


This section describes previous work generally related to analyzing story com- 
plexity. Specific work related to individual complexity dimensions is discussed at 
the beginning of each of the following sections. 


2.1 Related work in language research and human sciences 


In language research, the concept of narrative complexity is used to examine 
the cognitive development of children (Greenhalgh & Strong 2001; Newman & 
McGregor 2006; Scott & Windsor 2000). Children use narratives to relate events, 
establish and maintain friendships, and express their thoughts and feelings 
(McCabe & Bliss 2003). Narratives are defined here as stories about real or imag- 
ined events that are constructed by weaving together sentences about situational 
contexts, characters, actions, motivations, emotions, and outcomes (Gillam & 
Pearson 2004). Evaluation of children’s narratives includes both the overall story 
grammar, such as characters, setting or events, and detailed aspects, such as pro- 
noun usage or cohesive ties (Petersen et al. 2008). Other measures include the 
overall story length and artful elaboration (Ukrainetz 2006). 

Computer-assisted story analysis for literature has typically occurred at the 
word level of granularity, suitable for studies of authorial style based on patterns 
of word use (Burrows, 2004). However, many interesting questions in human 
sciences lie on a much higher level. Literary scholars explore aspects such as the 
communal harmony and discord in Russian novels (Lieber 2011), characteristics 
of fictional portrayals of physicists (Dotson 2009), personality traits of characters 
in Victorian novels (Johnson 2011), or differences in social interactions in urban 
and rural English novels (Eagleton 2005). A high-level representation of a story 
in terms of characters and their interactions is therefore desirable to support 
such analyses. 
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2.2 Computational analysis of narratives 


Early experiments in representing a story automatically focused on character- 
izing the plot as a sequence of events. Halpin and Moore (2oo6) designed an 
automated system for evaluating a student’s ability to rewrite a fictional story. 
They extracted a chronologically ordered sequence of events in a predicate-ar- 
gument structure, representing the entities and their actions to predict the plot 
quality using a supervised machine learning system. They attained up to 56% 
accuracy in predicting the grades given by the teacher. Chambers and Jurafsky 
(2ooo) proposed unsupervised narrative schemas by performing an induction 
of situation-specific semantic roles and linked them to event chains. Exploiting 
these schemas, McIntyre and Lapata (2010) created a story generation system. 
Since it focuses on events, however, it cannot enforce a global notion of how the 
characters relate to one another, therefore the focus of novelistic plot structure 
to the level of individual events has been criticized (Elsner 2o12). 

Recent NLP experiments begin to prioritize the entity-centric models, as pro- 
posed by Lehnert (1981). He suggests focusing on the plot units as a knowledge 
structure for representing narrative stories and generating summaries. Plot units 
are fundamentally different from the story representations that preced them as 
they focus on the affect states of characters and the tensions between them as the 
driving force behind interesting and cohesive stories. This theory is followed e.g. 
by Goyal et al. (2010), who automatically identify the affect states of characters 
in short fables to represent the story. However, the scheme is very fine-grained 
and not suitable for larger texts such as novels. Elson et al. (2010) focus on the 
frequency of dialogue interactions between characters to automatically extract 
social networks from British 19th-century novels. Kazantseva (2011) suggests an 
aspect-based summarization model for short fictional stories, focusing on find- 
ing the typical attributes of the main characters without revealing the plot of the 
story. Elsner (2012) uses a set of 19th-century romance novels to identify rela- 
tionships between the characters. He extracts frequencies of characters in differ- 
ent chapters, and the emotional language with which that character is associated 
in that chapter, and measures the strength of the relationships between character 
pairs based on their co-occurrence in a paragraph. He then compares the novels 
and shows similarities in terms of character emotions and relations. Chambers 
(2013) improves his previous induction of narrative schemas by learning enti- 
ty-centric rules (e.g., a victim is likely to be a person). Bamman et al. (2014) and 
Smith et al. (2013) present latent variable models for unsupervised learning of 
latent character types in movie plot summaries and in English novels. Iyyer et 
al (2016) present an unsupervised neural network model for tracking dynamic 
relationships between fictional characters using latent vectorial features (embed- 
dings) to represent the semantic concepts. 
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2.3 Related work in story visualization 


One of the earliest approaches to applying information visualization techniques 
to literature based on the contents of documents was developed by Rohrer et al. 
(1998). Based on a set of principal components extracted from term frequency 
vectors, a density field is generated and transferred to a three-dimensional visual 
display using blobs that have directions and are computed from the density field 
information. The Compus system developed by Fekete and Dufournaud (2ooo) 
visualizes lexical and syntactic information from literature, in their case French 
letters from the 16th century. Tailored to the comparative analysis of different 
documents, Monroy et al. (2oo2) propose an information visualization system 
called ItLv (Interactive Timeline Viewer). Using this tool, the authors demon- 
strate the visual comparative analysis of books, which ranges from overview 
like displays down to the page level, thus providing different levels of detail and 
interactive drill-down capabilities. With the increasing number of input docu- 
ments to visualize, overview tasks are becoming more important, which is also 
reflected in corresponding visualization techniques. DeCamp et al. (2005) visual- 
ize large document collections using an iconic display built out of the conceptual 
contents per document. It possible to quickly gain insights into similarities or 
dissimilarities of the visualized document corpus, as the authors demonstrate for 
a collection of patents. The work of Chen (2006) also visualizes large collections 
of documents, but concentrates on revealing patterns as well as connections in 
the data. Based on node-links diagrams, the author demonstrates the identifica- 
tion and visualization of co-citation networks in scientific literature. While the 
application is primarily motivated by scientific literature analysis, many of their 
concepts, in particular, the visualization techniques are also applicable to novels. 

Going back to the highest level of detail of literature visualization, the actual 
text, Weber (2006) introduces a color scheme to visualize text documents that is 
generated from part of speech information of words. The authors show that the 
resulting visual display can be used to identify and distinguish different genres 
of text, as well as insights into the syntactic structure of the documents. Akaishi 
et al. (2007) propose visualization techniques for the display of narrative struc- 
tures of a document. They concentrate on the visualization of terms and their 
relationships, which is demonstrated by the authors to be useful by displaying 
the structure of the analyzed document in terms of the contained topics. 

Keim and Oelke (2007) proposed visualizing a variety of different text fea- 
tures that contain the syntax characteristics, surface properties, and vocabulary 
metrics. The resulting visualization reveals differences clear enough to charac- 
terize and identify authors, and at the same time allows insights into regularities 
and irregularities of the analyzed book. 
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A visualization system that reveals common patterns in the analyzed text 
documents was developed by Don (2oo7). It allows the exploration of frequent 
words and n-grams and integrates them in several linked visualizations, which 
are able to guide users to interesting parts of the explored documents. 

Van Ham et al. (2009) developed Phrase Net, a technique to generate over- 
view like visualizations from unstructured text documents. Based on node-link 
diagrams, it is tailored to relationships, which can be retrieved on the syntactic 
or lexical level of the input text. The output is suitable for comparing different 
aspects ofthe analyzed texts, as well as to give an overview ofthe contained rela- 
tionships, for example between characters. The visualization of characters and 
their relationships is also part of the work by Regan and Becker (2009). Besides 
that, they also provide insights into the terms connected to characters in order 
to describe their personality. Noteworthy are also the insights into the design 
process that produces the amount of text that is included in the visual displays. 

Besides the detection of emotions in text, Mohammad (2011) proposes differ- 
ent visualization techniques in order to visualize emotions based on a timeline, 
as well as using a word cloud to produce words for different emotion catego- 
ries. The author also proposes techniques for visualizing associated entities with 
words expressing emotion. 

To gain insights into the differences of text documents, Jankowska et al. 
(2012) use common n-gram classifiers to build up visual signatures. The visu- 
alization is compact and therefore suitable for comparing a number of different 
documents, or parts of documents, by plotting the signatures next to each other, 
revealing differences in the usage of n-grams over different documents. Continu- 
ing with the idea of providing compact signatures or fingerprints, Oelke et al. 
(2013) demonstrate that matrices of fingerprints can be used to compare charac- 
ter occurrences and co-occurrences, which is suitable for identifying networks of 
characters as well as their changes over the analyzed text documents. 

Weiler et al. (2015) propose visualizations to track different aspects of text 
data streams, which can also be applied to documents. They identify three prop- 
erties to track the evolution of topics in documents, being importance, emotion, 
and context. The authors combine these metrics in a visualization that emulatesa 
morphing shape over time, effectively communicating topics and their sequen- 
tial changes. 

Besides these feature based visualization techniques, a number of related 
works are trying to re-create hand-drawn story lines by means of computational 
methods. Work by Tanahashi et al. (2012, 2015) and Liu et al. (2013) present a set 
of techniques that provide layout algorithms in order to create a line-based visu- 
alization of story progression with respect to characters, events, and locations. 
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The different entities are also interconnected, which makes important interac- 
tions clear in the resulting visualizations. 


3. Complexity of language used: analyzing stylistic and content 
features in book text segments 


Each of the following subsections in this and the next two sections is structured 
in the following way: First, we describe previous research directly related to 
the specific problem. Next, we explain our methodology for deriving particular 
features from the story text, which can be helpful for obtaining insights into a 
story's properties. Finally, we discuss our reasons for implementing a particu- 
lar visualization of the obtained features, and present cases which enableuser 
understanding of a story’s complexity. 


3.1 Expressing the reading ease of a text: readability measures, long 
and foreign words 


Previous work 


Traditional readability measures rely on two main features, beingword length 
and sentence length. They are computed by the average number of characters 
(or syllables) per word and the average number of words per sentence and are 
combined with manually determined weights resulting in a grade level as output. 
The most well known methods of this type are the Flesch-Kincaid Grade Level 
(Flesch, 1977) formula, which uses the average number of words per sentence 
and the average number of syllables per word to predict the grade level, the 
Automatic Readability Index (Smith and Senter, 1967), and the Coleman-Liau 
Index (Coleman and Liau, 1975). However, they have also been subject to criti- 
cism as they only capture surface characteristics of the text and can be mislead- 
ing (DuBay 2004). 

More recently, supervised learning algorithms have been used to automat- 
ically combine several text properties extracted from training data and used to 
associate them with the corresponding readability class. Feng et al. (2010) show 
that the density of entities (nouns and proper nouns) introduced in a text corre- 
sponds to a higher working memory burden for the reader, thus contributing to 
higher readability level. Pitler and Nenkova (2008) explore discourse level fea- 
tures from the Penn Discourse Treebank (Prasad et al. 2008) and report on their 
usefulness in predicting text readability. 
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Our features 


Our framework computes the readability measures (Flesch-Kincaid Grade Level, 
Automatic Readability Index, Coleman-Liau Index) for each paragraph, as well 
as the ratios of each part of speech type and a proportion of named entities and 
foreign words in the text, using the OpenNLP (Morton et al. 2005) Tagger and 
Name Finder. 


Visualization 


The input data for the readability visualization is computed based on the para- 
graphs of the analyzed books, since the readability metrics mostly refer to a 
number of sentences or words, instead of single sentences. For each of the para- 
graphs, the information from the corresponding chapter is given. 

The visualization of readability metrics for a given book is designed with the 
following goals in mind: 


1. Provide an overview of the changes in readability metrics corresponding to 
the chapters or paragraphs of a book in a compact way 

2. Keep the structure ofthe book visible, so that interesting values can be cor- 
related to the corresponding unit of text. 

3. Clearly indicate areas where the analyzed text is easy or hard to read 


Goal one results in two requirements for the general construction of the visu- 
alization. First, paragraphs, as well as chapters, have to be indicated visually 
so that they can be easily seen. Second, the visual design has to be as compact 
as possible to enable effective communication of the readability metrics, while 
at the same time providing an overview of as much text (and data) as possible. 
Visually, these requirements have been met by a matrix-like visual design. Each 
paragraph is represented by a cell. A chapter, which is composed of a num- 
ber of paragraphs, is represented by a group of cells. Compact representation 
also imposes requirements on the data preprocessing, which is done before the 
visualization is created. If all paragraphs are visualized with a cell, the resulting 
width and height of the created graphical depiction would be too large to satisfy 
the compactness constraint. As a consequence, the data is aggregated before it is 
visualized. The aggregation is based on a fixed window size, of which the arith- 
metic mean of the contained readability metrics is computed. In this way, outli- 
ers in both hard and easy to read directions should stay visible, but at the same 
time the overall data will reflect the properties of the aggregated paragraphs. In 
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addition, the windowing follows the logical structure of the text, which is given 
by chapters. If a window contains a chapter, the window size is reduced so that 
only paragraphs from the same chapter are aggregated, and finally, the aggrega- 
tion window is enlarged again and moved to the boundary of the next chapter. 

Goal two has in one main requirement, namely that the paragraphs and 
chapters can be easily perceived as such. Based upon the previous requirements, 
the structure needs to be resembled by positioning and aligningthe cells to rep- 
resent a paragraph. One condition of representing the structure is determined 
by the fact that the cells that are referring to consecutive paragraphs should be 
placed next to each other. This condition is fulfilled by aligning the paragraphs 
on a common baseline in the order in which they appear in the single chapters. 
A visual overflow per row, which could happen when the width of cells exceeds 
the width of the visualization space, is solved by introducing a line break so that 
multiple rows can represent the same chapter. Having made sure that the para- 
graph alignment resembles the structure of the book, the final step in visually 
representing the structure of the book chapter is to visually indicate the affinity 
of paragraphs to the corresponding chapter. This is done by introducing a mar- 
gin between the rows that refer to different chapters, and which is large enough 
to be perceived easily as the border between chapters. The result is a layout 
where rows of cells indicate paragraphs, line breaks are used to mitigate the 
overflow of rows being too wide for the visualization space, and rows referring 
to different chapters are separated clearly by a wide margin between them. 

The requirement resulting from the last desired property, the visual indica- 
tion of the readability metric, refers directly to the representation of cells. The 
displayed property is presented per paragraph and is represented by cells, the 
most prominent visual property of these being their area and color, which are 
used for the indication of the readability metric. Cells of paragraphs that are, 
according to the computed readability metric, easy to read, are filled with a light 
reddish color. In contrast, cells with low readability are filled with a darker red 
color. Readability values in between are mapped to a number of bins, each repre- 
sented by a color interpolated between light red and the dark red tone. The result 
is a color map that assigns readability values to a color starting at light red (easy 
to read) todark red (hard to read), as well as the colors in between. 

In the example given in Figure 2, Flesh Reading Ease is computed from the 
book Harry Potter and the Sorcerer’s Stone by J. K. Rowling and visualized with 
the described technique. The overall impression is quite mixed and shows, 
except for some single cells (fifth and eleventh row), a mixed picture of the 
readability score. 


Figure 2: Flesch Reading Ease score per paragraph of Harry Potter and 
the Sorcerer’s Stone. 


Figure 3: Flesch Reading Ease score per paragraph of Harry Potter 
and the Chamber of Secrets. 


hard to read 


easy lo read 


hard to read 


easy to read 
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Comparing the first two volumes of the Harry Potter series with respect to 
Flesh Reading Ease, reveals that they are quite similar (Figure 2 and Figure 3). In 
both books there are very short passages that are hard to read, while the overall 
impression remains mixed and they are finally judged clearly as easy to read. 


3.2 Analyzing the style and content of text 
Previous work 


Analysis of the style of books has been explored in the areas of authorship 
attribution (Zhao 2007), author profiling (Rangel et al. 2013) and computational 
stylometry (Daelemans 2o13), mainly with the aim of differentiating between 
authors and author groups. Ashok et al. (2013) additionally show that stylis- 
tic features can predict the book success with high accuracy (84%). They find 
that less successful books rely on verbs that are explicitly descriptive of actions 
and emotions (e.g., “wanted”, “took”, “promised”, “cried”, “cheered”, etc.), while 
more successful books favor verbs that describe thought-processing (e.g., “recog- 
nized”, “remembered”). Additionally, less successful books rely more on topical 
words that could be almost cliche, e.g., “love”, typical locations, and involve more 
extreme (e.g., “breathless”) and negative words (e.g., “risk”). They also report that 
the prepositions, nouns, pronouns, determiners and adjectives are predictive of 
highly successful books whereas less successful books are characterized by the 
higher percentage of verbs, adverbs, and foreign words. 


Our features 


We measure numerous aspects that have proven useful in previous work that 
captures the style of an author. The following features are based on the Open- 
NLP part-of-speech tagger (Morton et al. 2005), using the maximum entropy 
model to annotate tokens with the Penn Treebank POS tagset: frequency of 
adjectives and adverbs in their comparative and superlative form; the frequency 
of personal and possessive pronouns, and frequency of exclamation and question 
marks. Additionally, we measure the contextuality score, which is considered an 
approximation of how formal or casual a given text is (Heylighen 2002), with 
the knowledge that some parts of speech types contribute to a more casual style 
(such as pronouns or adjectives) while others occur more often in a more formal 
text (such as nouns and determiners). The contextuality score reaches values 
between o and 100 and is calculated as follows: 
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contextuality = (nouns + adjectives + prepositions + determiners — 
pronouns - verbs - adverbs - interjections + 100)/2 


where each part of speech type is expressed as its relative frequency compared 
to all words. 


Additional insights into the overall characteristics of a given text can be obtained 
by exploring the topics that occur in each chapter. Sociolinguists commonly use 
the Linguistic Inquiry and Word Count (LIWC) lexicons for this purpose (Pen- 
nebaker 2003), which we also employ here. LIWC is unique in the sense that it 
provides not only a set of basic topical categories (such as family, money, friends, 
work) but also expressions of cognitive processes (insight, tentativeness, uncer- 
tainty...) or inner drives (achievement, inclusion ...). There are 69 categories in 
total. In addition, we use topical word lists from www.enchantedlearning.com, 
which enrich our set with additional categories such as school, computers, cars, 
politics or swear words. 

Word lists such as those mentioned above are often criticized for being based 
only on the written form of the occurring expression, without taking into account 
additional information about its eventual polysemy or morphological variations. 
Therefore, we attempt to obtain more precise information about the categories of 
individual words using WordNet (Miller, 1996) semantic categories, sometimes 
also called lexicographer files or supersenses (Ciaramita and Altun 2006). 

Wordnet supersenses are assigned to verbs and nouns on a WordNet synset 
level, i.e., taking into account the distinction between different senses of the 
same word. There are 26 categories for nouns, such as animal, person, artifact 
or process, and 15 categories for verbs, such as communication, motion, cogni- 
tion or emotion. We retrieve the supersense for each verb or noun in the text 
by using its lemma and part of speech tag and mapping it to its most frequent 
WordNet sense. 

The visualization of different stylistic features, which can be related, such as 
the LIWC dictionary words or WordNet senses, is mainly driven by the need to 
gain an impression abouth whether they occur, and if so, in what relation they 
stand with each other. To communicate the actual values of features, it must be 
possible to follow the values over the progression of a book, which is the first 
property that a visualization needs to have for this kind of data and require- 
ments. Second, to be able to judge the domain of a set of features, as well as a 
region of concrete values, a comparison must be possible. 

A bar chart is capable of adequately fulfilling the requirements resulting from 
the first property. The different bars are make clear that the displayed data is 
not coming from a continuously occurring feature, which is being measured at 
discrete stages. Additionally, the area of the bar, which can be filled with a color, 
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Table 2: Overview of the lexicons used in our experiments 


Lexicon Reference | No. of No. of Example of categories 
name words categories and content 
Linguistic Pennebaker | 10,555 64 Feeling: hard, press, 
Inquiry and | 2003 warm 
Word Count Certainty: Fact, 
confidence, always 
NRC Emotion | Mohammad | 8,265 8 Surprise: cheer, inspi- 
2011 red, unexpected 
Joy: amuse, elegant, 
happily 
NRC Senti- Mohammad | 5,636 2 Positive: mighty, 
ment et al. 2013 prestige, unconstraint 
Hu & Liu Hu and Liu | 6,789 2 Negative: annoy, 
Sentiment 2004 mistaken, worse 
In-house Wanneret |416 16 Anxiety: cautious, 
emotion list | al. 2011 fearful, nervous 
In-house Enchanted [4,735 24 Politics: choice, 
topic list learning. quorum, voter 
com School: math 
WordNet le- Miller 1996 117798 26 Animal: fish, cat 
xicographer Body: hand, leg 
files - noun Person: teacher 
supersenses 
WordNet le- Miller 1996 |11,529 15 Motion: fly, walk, swim 
xicographer Communication: talk, 
files - verb scream 
supersenses 


can assist in the perception of the feature value. With each bar we represent a 
number of sentences, which are aggregated with respect to the logical borders of 
books, namely the chapters. The same reasoning as before also holds here, mean- 
ing that the arithmetic mean is the choice of aggregation method for the numeric 
feature values (since it is sensitive to outliers), which increases the possibility 
that the aggregate will have a value near to the outliers, as well as providing 
an effective way of preserving the feature values of the non-outliers. The order 
of the bars preserves the sequence of the represented aggregates, which allows 
conclusions based on the position of a bar with respect to the book, e.g. in the 
beginning, in the first half, or near the end. Also, the distance from neighboring 
bars is easy to perceive, because this can be done by comparing the different 
heights, and allows tracking of feature values, trend spotting, as well as tracking 
outliers during the progression of the book in question. 
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The second property effectively opens up the design in such a way that it is 
possible to perform the aforementioned analysis tasks for a set of features. Hav- 
ing the initial design based on a bar chart, a stacked bar chart adds comparison 
capabilities. However, the direct comparison between two or more features is 
negatively affected by a classical stacked bar chart, where the single bars are 
placed on top of each other in a single instance, leaving only one baseline in 
the chart, which grounds the perception of the lowest part of the bar in the 
chart. Because of this perception issue, each feature is still represented by a 
single bar chart instance. To make the charts comparable, they are placed on 
top of each other, and their scales are normalized accordingly. Their start and 
end, as well as the window size (resulting in the number of bars), are aligned. 
The result preserves a baseline for each represented feature, as well as allowing 
quick, but not exact comparisons of the feature values. An exact comparison 
is not considered a firm requirement, because of the different origins of the 
feature set as well as the language use, which may be fundamentally different 
for the measured properties of the text, already makes exact comparisons hard 
to interpret. To support navigation in the bar chart, a highlighter covering all 
charts follows the mouse. 

Similar to the previous visualization, the data is aggregated in a window 
fashion which respects the logical borders of a book, which are determined by 
chapters. The window can be adjusted in order to give more detail, or aggre- 
gate to a high level, so that for very large window sizes the aggregated data 
corresponds to a whole chapter, while it is still possible to transfer to a high 
level of detail. 

In Figure 4, the LIWC common verb classes “Future Tense”, “Past Tense”, 
and “Present Tense” are shown. The bar heights are globally normalized, which 
means they can be compared among themselves. From this viewpoint, it becomes 
clear that the first Harry Potter novel is written in the past tense, and there are 
only rare references to either the future or the present tense. Having a story line 


Verbs Future... u. mandadi asl aiti ah ah Qul. ahin landihan PT naa ala. la. akal. aa 


TIREI ulyd | N m"! A mem li hal W" MI ! a | Ad 
uyu kk Lily llullu] IR T N IN M TEAT EM “ne | a ili sl M kill, sl, 


hl i nu sla kl ia htc bi dad i 


Figure 4: Visualization of the frequency of future, past and present tense in 
Harry Potter and the Sorcerer’s Stone. 
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Figure 5: Visualization of the frequency of future, past and present tense in 
The Lord of the Rings - The Fellowship of the Ring. 


jumping frequently between tenses can be a sign of a quite complex story with 
forward and backward references, but this is not the case here. For all other 
Harry Potter novels, these charts look similar. Comparing them with fictional 
literature from other authors, for example with the first volume of “Lord of the 
Rings” by J. R. R. Tolkien (Figure 5), it becomes apparent that a similar picture 
can be expected for other novels written in the past tense. 

The same visualization technique can be used to get an overview of the type of 
actions in a book. Appropriate for this are the extracted WordNet supersenses of 
verbs. In Figure 6, a subset of these features and their occurrences in Harry Potter 
and the Sorcerer’s Stone is displayed. The feature values are globally normalized, 
which means that the height ofthe bars can be compared with each other. While 
analyzing this visualization, it becomes clear that two of the selected categories 
are dominating the verbs used, which are “telling, asking, ordering, singing”, as 
well as “walking, flying, swimming”. In contrast, verbs from other categories 
such as “fighting” or “eating and drinking” are only rarely used in the novel. 
When comparing this with the same data of the last book ofthe Lord ofthe Rings 
series (see Figure 7), three observations can be made. At first, there seems to be 
a much smaller focus on actions in the context of “telling, asking, ordering, sing- 
ing” in Lord of the Rings. The same is true for verbs from the category “touching, 
hitting, tying, digging”, but to a lesser extent (Figure 6). 

The third observation seems toprovide the biggest difference between the 
two books, being is the increased occurence of words from the “eating and drink- 
ing” category at the end of the Lord of the Rings. This is due to the coronation of 
the character Aragorn, where the festivities are described. Similar passages are 
missing from the Harry Potter novel, which can be clearly seen when comparing 
Figure 6 and Figure 7. 
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Figure 6: Visualization of a selection of Wordnet verb supersenses in Harry 
Potter and the Sorcerer's Stone. 


WN. Verbs: fighting, athleticiactivitiesi.. iu tou cue ita i al ll za. 


WN.Verbs:leating.and drinking «l ut u aa: er a ke hale nn m m 


ul dha birtst ath des tab lia) ee kb ll. 


Lab As Aa dl aas 


Figure 7: Visualization of a selection of Wordnet verb supersenses in The Lord 
ofthe Rings - The Return ofthe King. 
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3.3 Emotions and sentiment 
Previous work 


Ovesdotter Alm et al. (2005) set up a system to automatically predict the six basic 
emotions (anger, disgust, fear, happiness, sadness, surprise) in 22 children’s fairy 
tales on a sentence level. They achieve an accuracy of 63%, and point out that 
simple bag-of-words models are prone to errors in texts enriched with frequent 
figurative expressions. Volkova et al. (2010) experiment with the German texts 
of Brothers Grimm fairy tales. They investigate how emotions are expressed in 
these stories and how people associate emotions with certain text fragments 
of these fairy tales. The authors define several positive and negative emotional 
categories, and then several annotators manually annotate the text passages 
that convey these emotions. They find that in most texts, positive emotions are 
expressed more frequently than negative ones. The authors observe a reasonably 
high inter-annotator agreement for emotions in thetext. Mohammad (2011) uses 
his NRC Emotion Lexicon to explore emotions displayed in fairy tales and novels. 
He explores how the frequency of words associated with certain emotions differs 
for different types of literary text and how they change through the course of a 
narrative. Moreover, he compares distributions of emotional words in novels and 
fairy tales, finding that fairy tales tend to have higher emotional density. 


Our features 


First we measured the positive and negative sentiment and the six basic emo- 
tions (happiness, sadness, fear, anger, surprise and disgust) using in-house word 
lexicons inspired by www.psychpage.com. Additional word lists based on the 
same website measure more fine-grained emotional states such, as anxiety, con- 
fusion, helplessness or love. 

Sentiment lexicons, while widely used, have been a subject of criticism for 
capturing only very explicit expressions and, more importantly, out of their 
syntactic and semantic context. Therefore sentences such as “This movie was 
actually neither that funny nor super witty” would be incorrectly classified as 
positive based on the sum of its positive and negative expressions (2 + 0). This 
problem can be overcome by studying the compositional grammatical struc- 
tures of the sentences. This has been done in the Stanford Sentiment Analyzer 
(Socher et al. 2013), using recursive neural tensor networks. In their system, the 
above-mentioned example is classified correctly as negative. We employ their 
trained model in our system as well, to predict sentiment score on a 5-point scale 
on sentence level. 
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Visualization 


The visualization of emotions and sentiment is based on similar reasoning as 
the visual display of stylistic features. The corresponding visualization should 
effectively communicate the value of the corresponding feature, as well as its 
development, and allow comparative findings and insights. Keeping the same 
visual design as for stylistic features is motivated by the observation that the 
variety of emotion- and sentiment-related contexts contributes to the perceived 
degree of story complexity. 

For the first property,a bar chart was used to effectively communicate feature 
values and their development. The feature values are double encoded in the bars 
by using their height as an indicator of the represented numeric value, as well as 
the area that is colored uniquely per emotion feature. It is possible to follow the 
different values, as well as to perceive changes over the progression of a book. 

The comparison of different emotion features is enabled by stacking the bars 
of each feature in a single plot. This different approach is chosen, because in 
contrast to the stylistic features, the emotional context of a text passage repre- 
sented by a single bar can be seen as a limited space, whereas a single emotion 
can dominate the perception of a chapter, for example, if words from a negative 
emotion context occurr more frequently than any other emotions. This is taken 
into account by effectively limiting the visual space to the height of one bar 
chart, and the different emotions, which are about to be compared, are shown as 
stacked bars in that limited height. Together with the colored area, representing 
the feature value, this technique ensures that any dominating emotion, and its 
assigned color, also dominates the perception of the limited area per-visualized 
text passage. This desirable property sacrifices the exact perception of the fea- 
ture values and their comparison, but at the same time allows the emotional 
context and any dominating emotion to be followed effectively. 

The visualized data is computed by a window over the sentences that reflects 
chapter borders and uses the arithmetic mean for feature value aggregation. 

Inspecting Figure 8, which depicts the word counts of six different emotion 
word dictionaries (happiness, sadness, fear, anger, surprise, disgust), reveals that 
for the first Harry Potter novel, the number of sadness and anger words domi- 
nate the emotion categories as computed with the available in-house sentiment 
word dictionaries. There are outliers of the fear emotion in the beginning and the 
last third of the book, which are locally quite restricted and therefore describe a 
drastic, but limited change of the emotional tone of the book. Similar to the sty- 
listic features, this general impression does not change much for further books in 
the Harry Potter series, but the number of outliers of a specific emotion increases 
(compare Figure 8 with Figure o). 
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m Happiness 9 Sadness m Fear El Anger m Surprise E Disgust 


Figure 8: Emotion dictionary word counts from Harry Potter and the Sorcerer's 
Stone. 


m Happiness =m Sadness m Fear m Anger m Surprise E Disgust 


Figure 9: Emotion dictionary word counts of the last Harry Potter novel, Harry 
Potter and the Deathly Hallows. 


. i I 
l E E r a Fin ' fk u arra m ka" 
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Anger = Fear Words m Emotions m Feeling Words m Sadness 


Figure 10: Emotion words counts from enchantedlearning.com for the first 
Harry Potter novel. 
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Comparing this with a higher-level abstraction of emotion words, as can be 
seen in Figure 1o, it becomes clear that the aforementioned observation is only 
true in the analyzed context. 

Here, it can be seen that the number of words representing positive emotions, 
positive feelings, and positive words dominate the chosen emotional context, 
which is comprised of anger, fear, negative words, positive emotions, positive 
feelings, positive words, and sadness. 

Depending on the chosen words, the visualization will differ and present a 
different picture of the emotional context. 


4. Complexity of a plot: identifying characters in a literary text 
and relations between them 


Beyond linguistic complexity, an important aspect influencing the ability to under- 
stand a story is the number of characters appearing in it and the complexity of 
their interactions. How many literary characters appear in a novel]? Despite the 
seeming simplicity of the question, precisely identifying which characters appear 
in a story remains a difficult problem in literary and narrative analysis. 


Previous work 


Characters form the core of many computational analyses, from inferring proto- 
typical character types (Bamman et al. 2o14) to identifying the structure of social 
networks in literature (Elson et al. 2010; Lee and Yeung 2012; Agarwal et al. 2013; 
Ardanuy and Sporleder 2o14; Jayannavar et al. 2o15). 


Our methodology 


In order to identify individual characters in fictional literature, we have devel- 
oped two character identification methods. A fast one to identify as many men- 
tions of a character in the text as possible, and a precise one to assign direct 
speech to a particular speaker in the book. The second method is described in 
section 5. The first method, used here, is a two-phase process, where first a set 
of candidates is generated using several predefined rules, while in the second 
step the whole document to be analyzed is scanned for occurrences of candi- 
dates, in order to ensure no occurrences are overlooked. The rules contain heu- 
ristics based on common salutations (extracted from the English Wikipedia using 
DBpedia queries for Women’s and Men’s social titles, Military ranks, Academic 
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ranks, and Political titles). In addition, grammar based rules are in place that 
hint at a possible character based on specific parts of speech combinations, such 
as the identification of possessive constructions indicating a character. These 
include detection of possessive pronoun constructions (Figure 11, lines six and 
eight), as well as verbs in the 3rd person singular (Figure n, line ten) usually 
having a character in context. 

Finally, the character candidate tokens are followed to capture full names and 
titles corresponding to characters (lines 13 to 18, Figure 11). This permits detec- 
tion of characters such as “Lord Voldemort” or “Professor Dumbledore”, while 
state of the art named entity detection produces results with the titles and salu- 
tations typically missing, e.g. with the Stanford Named Entity Recognizer (Finkel 
et al. 2005). The full attribution of characters, including any titles or salutations, 
properly reflects the books contents and allows different kinds of references to 
the same characters to be captured. We performed several experiments with 
the final set of heuristics and a number of different books written by different 
authors, to clarify if postprocessing to resolve coreferences is required. Based on 
the exemplary results and the fact that we kept the set of heuristics small, special 
treatment of coreferences has been omitted, as we found only very few, if any 
(below ten) false positives. Since we also identify other types of names, besides 
animated named entitiessuch as locations, the same visualization can be used 


Input : A sequence of tokens T, a list of salutations and titles $ 
Output: sequences T” € T that are likely to denote a character 
1T’+ {} 
2 for i+ 0 to |T| do 
3 | teTh,¢-Th-l,’ — T [;+1F| 
4 if t€ S then 
5 | push (T’,T [i, follow.character (T, i)]) 
6 | else if POS (t) = NNP and POS (t") = IN and ends(t,’s) then 
7 | push (T’,T [i, follow.character (T, i)]) 
8 
9 


else if is_noun(t) and is_noun(t”) and ends(t,s’) then 
| push (T’,T [i, follow.character (T, i)]) 

10 | else if is_uppercase (t [0]) and POS (t) = VBZ then 

11 | push (T",T [i, fo11ou_character (T, ;)]) 


12 return T” 


13 define follow_character (T', o) 
14 | fori +o to |T| do 


15 t+ Til 
16 if !is_uppercase (T [i] [0]) and !is_hyphen (T [i] [0]) then 
17 | break 


18 return o 


Figure 11: Heuristics to detect character names. 
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to explore the relation between characters and locations in the book. When the 
secondary characters mostly stay in one location, the book can be considered 
less complex. 


Visualization 


Thinking of co-occurrences as a node-link structure is obvious. Nodes represent 
the characters, and for each co-occurrence a link can be added to the graph, or 
the weight of an existing link between the two co-occurring character nodes can 
be increased. Visualizing character co-occurrences directly by means of a graph 
imposes huge perceptional challenges to the reader, because in fictional litera- 
ture it can be expected that characters frequently co-occurr with each other, for 
example, because of interactions. A graph constructed as mentioned before can 
be visualized by utilizing a number of different graph layout techniques, which 
all optimize certain criteria, such as keeping the number of edge crossings low, 
imposing a high degree of visual symmetry, or keeping the average edge length 
below a certain threshold. For fictional literature it may be expected that the 
visualization of a graph, based on a suitable graph layout technique, could suffer 
from an overplotting of the edges or the nodes, making it difficult to perceive 
frequent co-occurrences or patterns in the co-occurrences. 

Using adjaceny matrices is a technique that utilizes the same kind of data, i.e. 
node-link structures, where the nodes represent characters and links are used to 
indicate co-occurrences, and where the visualization is well known to scale for 
large numbers of rows and columns (representing characters), while also support- 
ing the perception of visual patterns. In these matrices, the rows and columns 
represent nodes from the graphand the cells are used to map the connections of 
nodes in the graph. There is intentionally no overlap, which preserves any visual 
patterns and at the same time allows networks in the data to be identified. 

To depict character co-occurrences with adjacency matrices (see Figure 12), 
an undirected, weighted graph is created from the co-occurrence data. Each node 
represents a character, for each co-occurrence of the character an edge is added 
to the data structure with the weight of one. In case an edge between two charac- 
ters already exists, its weight is increased by one. Having constructed the graph, 
a subgraph representing the co-occurrences between the top n most occurring 
characters is extracted. The visualization of the adjacency matrix from this sub- 
graph represents each character by a single row and a single column, which 
makes the result symmetric. For each character c, the co-occurrences with the 
other characters d are examined, and the corresponding cell in the row belonging 
to c and columns of characters from d are assigned a color on a color map rang- 
ing from light blue (few co-occurrences) to a dark blue (most co-occurrences), 
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Figure 12: Co-occurrence of the ten most frequently occurring characters in 
Harry Potter and the Sorcerer's Stone. 


that is used to fill the cell area. If a character does not interact with another one, 
which is part of the adjacency matrix, the visual indication is a cross on white 
ground. The rows and columns are ordered by the absolute occurrences of char- 
acters, ensuring that frequent characters and their co-occurrences are visible 
together starting at the top left of the matrix visualization. To indicate the sym- 
metry of the matrix, the diagonal, which refers to co-occurrences of characters 
with themselves, the corresponding cells are marked in black. 

Figure 13 shows the 15 characters that occur most often in the first Harry 
Potter novel. From top left to top right, or top left to bottom left, the characters 
are ordered descendingly according to their occurrences over the entire book. It 
can be seen that Harry (first row, first column), occurs together quite frequently 
with every single of the remaining top ten characters, as is indicated by the dark 
blue color of the cells. It can also be seen that Dumbledore does not occur at 
all together with Neville, as is indicated by the black x on white ground of the 
corresponding cell. Since the matrix is symmetric, the diagonal would indicate 
co-occurrences of the character with themselves, which is encoded with a cell 
marked in black. Figure 14 visualizes the same information of the first book of 
the Lord of the Rings series. 
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Figure 13: Visualization of the top ten character co-occurrences in the first 
four chapters of Harry Potter and the Sorcerer's Stone. 


This matrix-based visualization concept can be applied to a much higher level 
of detail. In Figure 14, the first four chapters of the first volume from the Lord 
of the Rings series are shown, the top left matrix depicts co-occurrences of 
chapter one, top right chapter two, bottom left chapter three, and bottom right 
chapter four. Simply by examining the names of the top occurring characters 
per chapter, it can be seen that quite drastic changes in the involved characters 
also imply a change in the story line. It can also be observed that the number of 
co-occurring characters in Lord of the Rings is quite different to the Harry Pot- 
ter novel visualized in Figure 13. In the latter almost every top occurring char- 
acter has interactions with the others, while in the former this is not the case, 
as we can observe that certain characters, such as Gandalf, Gollum, or Took 
have only a limited number of co-occurring characters. For both Harry Potter 
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Figure 14: Visualization of the top ten character co-occurrences in the first 
four chapter of Lord of the Rings - The Fellowship of the Ring. 


and Lord of the Rings, a group of characters is clearly in focus per chapter. On 
the top left there is usually a group of four of five characters, which co-occur 
quite frequently (dark blue) with themselves. In some cases, in particular the 
main character, they are part of the pattern and co-occur with almost every 
character of the top ten in the visualized chapter. 
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5. Complexity of the characters: analyzing the book from an 
individual character's perspective 


5.1 Identifying direct speech and automatically assigning speakers 


According to character-driven (as opposed to plot-driven) literature theory, the 
protagonists in a novel are the central aspect of the story. Characters possess 
multiple layers of personal traits which are exposed as the story develops. Our 
aim in this work is to gain an insight into each character’s complexity by ana- 
lyzing the concepts and style in their direct speech produced. In order to explore 
what the characters are discussing and in which manner, we first need to iden- 
tify the direct speech segments in the text and assign them to the appropriate 
speaker. This is a difficult problem since direct speech utterances in modern 
literature are rarely in the traditional format, such as “direct speech,” said John. 


Related work 


Numerous publications study how quotes can be attributed to a speaker, how- 
ever, only a few of them deal with literary texts. Elson et al. (2010) propose a 
dialogue attribution method specifically designed for novels. They extract a fea- 
ture vector for each pair, consisting of a candidate speaker and a quote. They 
use such information as the distance between the candidate and the quote, and 
the number of appearances of the candidate in the book. Several classifiers are 
then used to discriminate between vectors that belong to speakers of a given 
quote and other characters. Using a corpus of 19th and early 2oth-century fiction 
by six authors, they achieve an overall accuracy rating of 83%. O’Keefe et al. 
(2012) conduct further experiments using the same corpora. In contrast to Elson 
et al., they perform the attribution without the use of annotated data. The best 
result of 53.3% is obtained by a simple rule-based method. He at al. (2013) present 
another supervised dialogue attribution method, using an unsupervised actor- 
topic model, which is used to predict likely speakers based on topic distribution 
of relevant text. Accuracy of between 80% and 86% is achieved. 

Elson et al. (2010) further use the dialogue method to construct social net- 
works for book characters. The network is represented as an undirected graph 
with nodes representing characters and weighted edges describing their rela- 
tionships. The weight of an edge between a pair of character nodes is set accord- 
ing to the total word length of quotes spoken by one of the characters, in cases 
where there is a quote by the other character within 300 words. The networks 
thus extracted are used by the authors to compare the degree of connected- 
ness and structure of the network for books with different settings, providing 
results that refute popular hypotheses from literary studies. Agarwal et al. (2012) 
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manually extracted a social network in Alice in Wonderland using social events. 
Two specific kinds of social events were used: interactions, in which both parties 
are aware of the event, and observations, in which only one party is aware of the 
event. Vala et al. (2015) propose a new character identification technique, boot- 
strapping characters from seeds of names found with the Stanford Named Entity 
Recognizer (Finkel et al. 2005) and Stanford coreference resolver (Recasens et al. 
2013), or entities denoted as animated in WordNet. They achieve an F-score of 
up to 75%. 


Our methodology 


The most challenging task in building the direct speech data set is assigning 
direct speech utterances to the correct speaker. We benefit from the epub format 
of the e-books, which defines a paragraph structure in such a way that only the 
indirect speech chunk immediately surrounding the direct speech is considered: 


John turned to Harry. “Let’s go,’ he said. 


Given the large amount of text available in the books, we focus on precision 
rather than coverage and discard all utterances with no explicit speaker (i.e., 
30-70% of the utterances, dependent on the book), as the performance of current 
systems on such utterance types is still fairly low (O’Keefe et al. 2012; He et 
al. 2013; Iosif and Mishra 2014). Conventional coreference resolution systems, 
which we tried, did not perform well on this type of data and were therefore 
not used in the final setup. We adapt the Stanford Named Entity Recognizer 
(Finkel et al. 2005) to consider titles (Mr., Mrs., Sir...) as a part of the name and to 
treat the first person “I” as a named entity. However, identifying only the named 
entity PERSON in this way is not sufficient. In our evaluation sample consisting 
of a Game of Thrones book “Pride and Prejudice” (the former annotated by us, 
the latter by He et al. (2013)), 20% of utterances with explicitly named speaker 
were not recognized. Of those correctly identified as a Person in the adjacent 
indirect speech, 17% were not the speakers. Therefore, we implemented a custom 
heuristics (illustrated in Figure 15), which additionally benefits from the Word- 
Net semantic classes of verbs, enhancing speaker detection by recognizing the 
nouns. With this method, we retrieve 89% of known speakers, of which 92% are 
assigned correctly. Retrieved names are grouped based on string overlap (e.g. Ser 
Jaime and Jaime Lannister), excluding the match on the last name, and corrected 
for non-obvious groupings (such as Margaret and Peggy). 

To quickly get an insight into the extracted direct speech of characters, word 
clouds can be used. They can enable a quick overview of the words used, while 
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Algorithm 1 Assign speaker 
1: nsubj — subjects in adjacent indirect speech 
2: if count(nsubj(i) = PERSON) = 1 then speaker + 
nsubj 
3: else if count(nsubj(i) = PERSON) > 1 then 
speaker + the nearest one to directSpeech 
4: else if directSpeech preceded by 
VERB.COMMUNICATION then speaker +- the 
preceding noun(s) 
else if directSpeech followed by 
VERB.COMMUNICATION then speaker +- the 
following noun(s) 
6: else if directSpeech followed by gap & 
VERB.COMMUNICATION then speaker < the noun(s) 


in gap 
7: else if directSpeech preceded by gap & 
VERB.COMMUNICATION then speaker < the noun(s) 


in 
ee speaker 


Figure 15: Our method for assigning a speaker to a direct speech utterance. 


at the same time expressing the importance of the words, typically measured by 
their frequency. To do so, two visual variables are commonly used: the size ofthe 
words and their color. 

Having a data set with direct speech from the assigned speakers, we decided 
on an approach that visualized the differences of two characters in terms of their 
direct speech. To do so, the words have been lemmatized and counted. This is 
done for two characters, e.g. Harry and Hermione from the Harry Potter novels. 
To understand where the differences between the characters lie, these two sets 
of words are then subtracted from each other, which results in two disjoint sets 
with no overlap. 

To construct the visualization, we join the two sets and assign each word 
an importance score based the number of occurrences. This importance score is 
reflected in the size of the words, leaving the color to indicate another dimension 
of the data set. In our case, we decided to indicate the character that spoke the 
word by their color. Having set the size and colors of the words, the construction 
ofthe word cloud follows the classical wordle technique, along a spiral from the 
origin of the visualization canvas. 

The example in Figure 16 shows the differences in direct speech of Harry 
and Hermione in “Harry Potter and the Sorcerer's Stone”. White color indicates 
words attributed to Harry, and red the ones spoken by Hermione. We can see 
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dread sight 


en hospital miss hour 


change punch die door Sir 

ion turner sy Crookshank 
9 student studies lock 

deserve lavender stand 

why macnair fake meet study safe 


like shut excellent hope case walk 
dear dissendium 


magic 


she patronus permission werewolf 
eah _. 2°" boy match 
y job GIVE voldemort 
patronum 


Figure 16: Word cloud displaying the most frequent words of direct speech 
from Harry (blue) and Hermione (red). Words occurring in direct speech of 
both characters have been removed from the data set. 


that Hermione talks more about the studies and is also more concerned about 
safety. In contrast to Harry, she also mentions her cat, Crookshanks, multiple 
times. Harry, as is typical for the book, mentions Voldemort by name more 
often. He also uses comparatively more spells and often asks ‘why’. 


5.2 Extracting features on individual level: character's emotions, 
topics, actions 


Related work 


Nalisnick et al. (2013) analyze sentiment between characters in Shakespeare’s 
plays. Their method is based on the assumption that a line of speech is directed 
towards the speaker of the previous line. A sentiment lexicon was then used 
to extract sentiment from the character’s speech and measure the change of 
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sentiment between pairs of characters throughout the course of a play. Flekova 
and Gurevych (2o15) use text classification techniques to predict personality 
traits of literary characters. Characters are classified as either ‘introvert’ or 
‘extrovert’ types. This data is used to train SVM classifiers to predict these traits 
in unseen characters. Extracting features from the dialogue of the characters, a 
variety of features is used, including lexical, semantic and stylistic features, and 
the use of emotional language. 


Methodology 


For the purpose of analyzing individual characters, we use the same stylometric 
features as described in section 3, with the difference of applying them only on 
direct speech utterances of each protagonist separately rather than on the entire 
text of a book. 


Visualization 


To follow the emotional context of a character throughout a book, a visualization 
should provide the following insights into the emotional context of a character: 
what is the dominating emotion, and which emotions change and how drastic 
are these changes. 

To determine the emotional context, the book is analyzed using a sliding win- 
dow. For each window, the words from emotional categories, such as negative or 
positive emotions, the number of occurrences of words from these categories are 
counted and attributed to each character occurring in the window. 

Compared to the overview visualization introduced in section 3.3, the 
space-filling idea is discarded in favor of a flow- like visualization metaphor. 
This eases the task of perceiving the emotional change of neighboring emotional 
context, since, as well as the estimate of the amount of change, the area occupied 
by the emotion flow visualization also changes in relation to the overall amount 
of emotions. Each of the stacks is placed next to each other, as they occur in 
the book, to reflect the emotional change in the story. The transition between 
each of the stacks is displayed along a b-spline interpolation, which smoothes 
radical changes in the data (here: in the emotional changes), but still preserves 
a truthful transition between the contexts. For the emotional context, the areas 
corresponding to the different emotion categories are filled with distinct colors, 
which enables readers to easily follow an emotion category, as well as to effec- 
tively estimate the share of emotion categories per context. 
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In Figure 17, the emotion words connected to the main character, Harry, in 
the novel “Harry Potter and the Sorcerer's Stone” are shown. It is clearly visible 
that the number of words with a negative connotation dominate, while there 
is also a varying, but noticeable amount of “anger” words. In particular, it is 
striking that positive word classes, such as “joy” or “trust” occur only rarely in 
Harry’s context. 

In Figure 18, the emotion words co-occurring with Hermione are displayed. 
Besides the obvious insight that Hermione is appearing later in the book than 
Harry, the similarities between hers and Harry’s emotion word context is quite 
clear. 

Figure 19 shows a direct comparison of the emotional context (in terms of 
words from the NRC emotion dictionaries) of the two characters Strider (top) 
and Aragorn (bottom). For Strider, the context is indicated as being dominated 
by positive emotions, as well as a quite large extent of fear and negativeness. 
Aragorn, as the same character is referred to later, is missing a large amount of 
the positive extent, and his emotional context shows a larger influence of fear. 
This is in line with the story flow of the first Lord of the Rings book, where Ara- 
gorn is joining the fellowship of the ring and encounters, together with them, the 
Ringwraith. In contrast, Strider has a positive function as he offers help to the 
Hobbits in Bree, which can be seen in his emotional flow (Figure 19 top). 


6. Conclusions and future work 


In this chapter, we presented methods for extracting characteristics and features 
from book chapters, which can be used to approximate the components of story 
complexity from different aspects. In our model, we suggested that story com- 
plexity consists of three core areas: the complexity of the language used; com- 
plexity of the plot; and the intrinsic complexity of individual characters. We 
presented a range of Natural Language Processing techniques that enable initial 
insights into each of these areas and which can be further built upon. 

Information visualization has been introduced as the method to make the 
different kinds of data visible and intuitively comprehensible to readers. Each 
of the visualization techniques is designed according to the characteristics of 
the available data, e.g. stylistic information of character co-occurrences, or the 
count of emotion words in a reference unit, for example, paragraphs. The visuals 
shown in this chapter are already highly specialized and tailored to the available 
set of features that in our opinion contribute to the whole ensemble, which we 
label as story complexity. 

The next step in visualizing the different aspects would be the combination 
of different data, e.g. the co-occurrences of characters together with the emotion 
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[Elane WM Anticipation Il] disgust | gra go Beet Il] Positive 7] Sadness DJ surprise Trust 


Figure 17: The flow of positive and negative emotions in “Harry Potter and the 
Sorcerer's Stone” in the case of Harry. The vertical lines are for orientation 
purposes only. 


rin 


El Anger [E Anticipation BM sas Mr voy — END Necative I] Positive Sadness Surprise Trust 


Figure 18: Emotion words in the context of Hermione during the first book of 
the Harry Potter series. The vertical lines are for orientation purposes only. 
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[jane [E Anticipation lll] Disoust | gra go IB sesatve IB] Positive Sadness Surprise Trust 


Figure 19: NRC emotion word categories appearing in the context of the cha- 
racter Strider (top) and Aragorn (bottom) in the first book of the Lord of the 
Ring series. The vertical lines are for orientation purposes only. 
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words, so that besides the fact that two characters occur together, a qualitative 
measure can be assigned. This could provide insight into books where a char- 
acter changes his emotional context, and which gives a hint that his emotional 
profile might be more complex than that of other characters. In addition, more 
integrated views can open up new design spaces. More complex information 
spaces, such as projections based on the extracted features from multiple charac- 
ters, can also give informative representations of the data, e.g. because of groups 
of entities or even the shapes formed by the entities. 

From the Natural Language Processing perspective, literature still poses 
many challenges. Most of the text annotation models are focused on modern 
languages, such as those found in newspaper articles or even social media, and 
their adaptation to narratives which use notably more figurative language, such 
as more infrequent word expressions and sometimes an unusual syntactic struc- 
ture, is challenging. For example, a named entity recognition model trained on 
Wikipedia is likely to produce very poor results when tried on classical novels. 
Development of more advanced methods tailored specifically to literature pro- 
cessing is required and exceeds the scope of this chapter. 
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III. Tools 


Sascha Wolfer / Sandra Hansen-Morath 


Visualisierung sprachlicher Daten mit R 


Abstract Die ansprechende und geeignete Visualisierung linguistischer Daten 
gewinnt analog zum steigenden Einfluss quantitativer Methoden in der Lingu- 
istik immer mehr an Bedeutung. R ist eine flexible und freie Entwicklungsum- 
gebung zur Umsetzung von statistischen Analysen, die zahlreiche Optionen zur 
Datenvisualisierung bereithält und sehr gut für große Datensätze geeignet ist. 
Statistische Analysen und Visualisierungen von Daten werden auf diese Weise 
in einer Umgebung verzahnt. Durch die zahlreichen Zusatzpakete stehen auch 
weiterhin zeitgemäße Methoden zur Verfügung, um (linguistische) Daten zu 
analysieren und darzustellen. 

Unser Beitrag vermittelt einen stark anwendungsorientierten Einstieg in das 
Programm und legt mithilfe von vielen praktischen Übungen und Anwen- 
dungsbeispielen die Grundlagen für ein eigenständiges Weiterentwickeln der 
individuellen Fähigkeiten im Umgang mit der Software. 

Neben einer kurzen, eher theoretisch angelegten Einleitung zu explorativen 
und explanatorischen Visualisierungsstrategien von Daten werden verschie- 
dene Pakete vorgestellt, die für die Visualisierung in R benutzt werden können. 


1. Einleitung 


Mit dem wachsenden Einfluss quantitativer Ansätze in der Linguistik gewinnt 
die ansprechende und geeignete Visualisierung linguistischer Forschungsergeb- 
nisse kontinuierlich an Bedeutung. Die im folgenden Beitrag vorgestellte freie 
Statistikumgebung R (R Core Team 2016) bietet eine solche Möglichkeit, statis- 
tische Analyse und deren Visualisierung zu verzahnen. Dank der fortlaufenden 
Entwicklung zahlreicher, den Funktionsumfang von R erweiternder Zusatzpa- 
kete ist davon auszugehen, dass Forscherinnen und Forschern auch in Zukunft 
zeitgemäße Methoden zur Verfügung stehen werden, linguistische Daten zu ana- 
lysieren und darzustellen. 

Im Vergleich zu den anderen Beiträgen in diesem Band fällt dieser Beitrag 
insofern aus dem Rahmen, als er in einem tutorialartigen Duktus gehalten ist. 
Dies ist dem Umstand geschuldet, dass der Beitrag in der Tat aus einem Tutorial 
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entstanden ist, das wir auf dem Herrenhäuser Symposium „Visuelle Linguistik“ 
in Hannover gehalten haben - jener Veranstaltung, aus der dieser Band hervor- 
ging. Da es das Ziel des Tutorials wie auch dieses Beitrags ist, einige Visualisie- 
rungsoptionen innerhalb von R vorzustellen und anhand linguistischer Beispiele 
zu illustrieren, gehen wir nicht auf kommerzielle Software (bspw. SPSS, SAS 
oder Stata) oder quelloffene Alternativen zu R (bspw. bestimmte Anwendungs- 
szenarien der Sprache Python) ein. Zum Verständnis des Inhalts werden bei der 
Leserin / dem Leser zumindest erste Programmiererfahrungen (idealerweise in 
R selbst) vorausgesetzt. 


1.1 Explorative und explanatorische Visualisierung von Daten 


Visualisierungen sind meist entweder explorativ oder explanatorisch. Explora- 
tive Visualisierungen sind all jene Schaubilder, Graphen o. A., die Forschende 
einsetzen, um erhobene Daten selbst besser kennenzulernen und/oder Zusam- 
menhänge zu begreifen bzw. zu entdecken. Dabei liegt der Fokus zunächst nicht 
auf einer ästhetisch ansprechenden Form. Auch auf eine extensive Annotation 
der Grafiken wird bei explorativen Visualisierungen im Allgemeinen verzichtet. 
Da die Forschenden die Schaubilder, Graphen etc. selbst entworfen haben, ken- 
nen sie ja die Bedeutung bspw. darin vorkommender Achsen oder Datenpunkte. 
Explorative Visualisierungen sind nicht unbedingt mit Verfahren der explorati- 
ven Statistik (z. B. Cluster- oder Hauptkomponentenanalysen) gleichzusetzen. 
Auch ein simples Streudiagramm (vgl. bspw. Abb. ı) kann explorativen Zwe- 
cken dienen. Wie bereits erwähnt: Primäres Ziel explorativer Visualisierungen 
ist es, die eigenen Daten besser kennenzulernen. In Zielgruppen gesprochen sind 
explorative Grafiken somit vom forschenden Individuum für sich selbst oder für 
Kolleginnen und Kollegen, die mit den Daten sehr gut vertraut sind. 

Explanatorische Visualisierungen sind dagegen auf eine Zielgruppe ausge- 
richtet, die mit den zugrunde liegenden Daten nicht oder nur sehr wenig vertraut 
ist. Daher müssen meist unmissverständliche Achsenbeschriftungen verwendet 
und gegebenenfalls zusätzliche Annotationen (Legenden, Beschriftungen von 
Datenpunkten) hinzugefügt werden. Das Ziel explanatorischer Visualisierun- 
gen ist es, den Rezipient/innen Sachverhalte bzw. Wissen zu vermitteln oder sie 
von etwas zu überzeugen. Rezipient/innen explanatorischer Grafiken können 
Fachkolleg/innen (bei wissenschaftlichen Publikationen) sein, aber auch Laien, 
beispielsweise bei einer Infografik im Web oder einem Schaubild in einer popu- 
lärwissenschaftlichen Zeitschrift oder Zeitung. 
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1.2 Von Daten zu Schaubildern 


Bei der Frage, welche Art von Visualisierung sich am besten eignet, sollte immer 
von den Daten ausgegangen werden, die zu visualisieren sind. Einige einfache 
Fragen können helfen, die Gruppe von Visualisierungen zumindest einzuschrän- 
ken. Eine erste Frage könnte lauten: Liegen mir Daten vor, in denen Informati- 
onen über Einzelfälle vorliegen, oder handelt es sich um auf welche Weise auch 
immer aggregierte Daten? So stellt beispielsweise eine Kontingenztabelle, die 
Korpushäufigkeiten in Bezug auf verschiedene Kombinationen von Merkmalen 
enthält, eine aggregierte Datenstruktur dar, weil aus der Tabelle nicht mehr auf 
den konkreten Einzelfall zurückgeschlossen werden kann (siehe unter anderem 
Tabelle 2). Eine Tabelle hingegen, in der jede individuelle sprachliche Einheit, 
sei es ein Wort, eine Phrase, eine Konstruktion oder ein Satz, in einer eigenen 
Zeile repräsentiert ist und deren Spalten Informationen zu dieser konkreten Ein- 
heit (Korpushäufigkeit oder -quelle, Wortart, syntaktische Einbettungstiefe etc.) 
beinhalten, weist keine aggregierte Datenstruktur auf. Grundsätzlich können auf 
der Grundlage von nicht-aggregierten, also einzelfallbasierten Datenstrukturen 
mehr Visualisierungen erstellt werden, da mehr Informationen vorhanden sind, 
nämlich zu jedem Einzelfall. Ohne diese Einzelfallinformationen sind zum Bei- 
spiel keine logistischen Regressionsanalysen möglich, mit denen man das Ein- 
treten oder Ausbleiben von Ereignissen auf der Basis von einem oder mehreren 
Prädiktor(en) vorhersagen kann. Aggregierte Datenstrukturen können außer- 
dem bei Bedarf aus Einzelfällen jederzeit abgeleitet werden. 

Außer der Art der Datenstruktur ist natürlich auch das Ziel der Visualisie- 
rung ausschlaggebend für die Wahl des Diagramms. Wenn ich den Unterschied 
zwischen zwei Gruppen zeigen möchte, könnte ein Balkendiagramm, evtl. mit 
Fehlerindikatoren, angebracht sein. Möchte ich die Aufmerksamkeit auf den 
zeitlichen Verlauf lenken, wäre ein Liniendiagramm geeigneter. Wenn ich auf 
der Suche nach statistischen Ausreißern bin oder einfach einen Eindruck von der 
Verteilung gewinnen möchte, bietet sich ein Boxplot oder ein Histogramm an. 

Als dritter Faktor ist auch die Anzahl der an der Visualisierung beteiligten 
Variablen relevant: Wie viele Dimensionen müssen im Schaubild abgetragen 
werden, um das zu visualisieren, was ich zeigen möchte? Ist genau eine Varia- 
ble beteiligt, handelt es sich meist um Visualisierungen von Verteilungen. Dazu 
gehören u a. Histogramme, Dichtekurven, Boxplots, Violin-Plots (violin plots).’ 
Soll die Beziehung zwischen zwei Variablen gezeigt werden, kommt es darauf an, 
wie die Variablen jeweils skaliert sind. So eignet sich z. B. ein Balkendiagramm 


1 Violin-Plots sind Boxplots recht ähnlich. Dabei werden anstatt (oder zusätzlich zu) 
einer Box links und rechts Dichtekurven angezeigt. In R sind Violin-Plots in den Pake- 
ten „ggplot2“ (siehe Abschnitt 3.1) und „vioplot“ verfügbar. 
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für die Darstellung des Zusammenhangs zwischen einer kategorialen (nominal- 
oder ordinalskalierten) und einer kontinuierlichen (intervallskalierten) Variable. 
Gruppiert oder stapelt man Balkendiagramme, kann noch eine weitere kategori- 
ale Variable berücksichtigt werden. Zwei kontinuierliche Variablen und eine kate- 
goriale Variable können in einem Streudiagramm im Zusammenhang betrach- 
tet werden. Dazu werden die beiden kontinuierlichen Variablen auf der x- und 
y-Achse abgetragen, während die kategoriale Variable beispielsweise durch Farbe 
oder Form der Datenpunkte dargestellt wird. Tabelle ı gibt einen Überblick über 
einige mögliche Kombinationen von Variablen und möglichen Visualisierungen. 


Tabelle 1: Anzahl zu visualisierender kategorialer und kontinuierlicher Variab- 
len und einige einfache passende Diagrammarten. 


Kategoriale Kontinuierliche Mögliche Visualisierung(en) 


Variablen 


Variablen 


1 


0 


Balkendiagramm, Tortendiagramm 


>1 


0 


Mosaikplot, Assoziationsplot, Gruppier- 
tes/gestapeltes Balkendiagramm 


Dichtekurve, Histogramm, Boxplot, 
Violin-Plot 


Streudiagramm 


3D-Diagramm, Streudiagramm + 
Radius der Datenpunkte 


Balkendiagramm, Liniendiagramm, 
Gruppierte Boxplots 


Streudiagramm + 
Farbe/Form der Datenpunkte 


Gruppiertes Balkendiagramm, 
Heatmap, Hexbin-Plot 


Tabelle ı enthält längst nicht alle Arten von Visualisierungen, die mit den ent- 
sprechenden Kombinationen von Variablen möglich sind. Genannt sind aber die 
meisten grundlegenden Verfahren, die innerhalb der linguistischen Forschung 
etabliert sind. 
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1.3 Gliederung 


Bevor wir uns nun konkret mit den Visualisierungsmoglichkeiten in R beschàfti- 
gen, sei an dieser Stelle noch ein kurzer Überblick über die Gliederung des folgen- 
den Beitrags gegeben. In Kapitel 2 werden wir uns mit einigen R-Paketen beschäf- 
tigen, die für die Visualisierung in R benutzt werden können. In Abschnitt 2.1 
gehen wir zunächst auf das in R bereits integrierte Paket „graphics“ ein. Dabei 
werden wir einerseits Plots selbst erstellen, andererseits aber auch zeigen, wie 
Elemente in bereits existierende Plots eingefügt werden können. Über diese 
Funktion können mächtige maßgeschneiderte Visualisierungen erstellt werden. 
In Abschnitt 2.2 widmen wir uns der Darstellung von kategorialen Daten und 
führen Mosaik- und Assoziationsplots ein, wie sie im Paket „vcd“? (Meyer 2015) 
verfügbar sind. In Abschnitt 2.3 zeigen wir, wie mit dem Paket „effects“ (Fox 
2003) die Schätzer aus bereits vorhandenen statistischen Modellen extrahiert 
und abgetragen werden können. In Kapitel 3 besprechen wir zwei alternative 
Plot-Pakete: Mit dem Paket „ggplot2“ (Wickham 2009) können Visualisierungen 
basierend auf der „Grammar of Graphics“ (Wilkinson 20015) erstellt werden. 
Dieses Paket stellen wir (kurz) in Abschnitt 3.1 vor. Abschnitt 3.2 schließlich 
verwenden wir darauf, das R-Paket „rCharts“ (Vaidyanathan 2013) vorzustellen, 
mit dem interaktive Grafiken erstellt werden können, die auf der JavaScript- 
Bibliothek d3.js basieren. Ein Schlusskapitel rundet den Beitrag ab. 


2. Visualisierung deskriptiver Statistiken und 
inferenzstatistischer Maße 


2.1 Die Basisausstattung: Das Paket „graphics“ 


Bereits die Grafikfunktionen, die in R ohne jegliche Zusatzpakete zur Verfügung 
stehen, sind vielfältig anpassbar. Mit diesen „Bordmitteln“ können sowohl explo- 
rativ als auch explanatorisch ausgerichtete Visualisierungen erstellt werden. 
Benutzer/innen können dabei vorgefertigte Funktionen nutzen, um komplexe 
Grafiken zu erstellen. Da die Logik einer Art Baukastenprinzip folgt, können 
aber auch beliebige Elemente miteinander kombiniert und so einfache Grafiken 
sukzessive erweitert und an die eigenen Visualisierungsziele angepasst werden. 

Einfache, bereits in Abschnitt ı.2 genannte Schaubilder können mit den 
Funktionen plot() für x-y-Streudiagramme und Liniendiagramme, barplot() 
für Balkendiagramme, hist() für Histogramme, pie() für Tortendiagramme und 


2 Zusatzpakete können in R über die Funktion install.packages() installiert und über 
library() eingebunden werden. 
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boxplot() für Boxplots erstellt werden. Die Arbeitsweise und somit die grafi- 
schen Produkte dieser Funktionen können über Parameter angepasst werden. 
Eine Übersicht über alle Grafikparameter wie Ränder, Farben usw. kann in R 
über die Eingabe von ?par angefordert werden. Möchte man sich über die Para- 
meter informieren, die jeder dieser Funktionen eigen sind, bspw. die Reichweite 
der Hinges’ in Boxplots oder die Anzahl der Bins in Histogrammen, sollte man 
die Hilfeseite der jeweiligen Funktion (bspw. ?boxplot oder ?hist) zurate ziehen. 
Das Interessante am Baukastenprinzip des Basispakets für Grafiken in R 
ist, dass man zu jedem bestehenden Plot Elemente hinzufügen kann. Alle oben 
genannten Funktionen starten in ihrer Standardeinstellung ein neues „Grafikge- 
rät“ (graphics device). Funktionen wie abline(), lines(), points(), curve(), arrows(), 
text() oder legend() fügen den Grafiken die entsprechenden Elemente in bereits 
geöffneten Grafikgeräten hinzu. Wir demonstrieren dies anhand eines Daten- 
satzes zu einer lexikalischen Entscheidungsaufgabe, der im Paket „languageR“* 
(Baayen 2011) enthalten ist. Der Datensatz besteht aus 1659 Antworten auf eine 
lexikalische Entscheidungsaufgabe. Wir visualisieren den Zusammenhang zwi- 
schen Worthäufigkeit, semantischer Klasse und Reaktionszeit in der lexikali- 
schen Entscheidungsaufgabe, d. h., wie lange jede Teilnehmerin/jeder Teilneh- 
mer des Versuchs benötigt hat, um ein englisches Wort in Abhängigkeit von 
seiner semantischen Klasse (Tier/Pflanze) und seiner Vorkommenshäufigkeit als 
solches zu verifizieren. Die Nichtwörter sind nicht im Datensatz enthalten. 


> library(languageR) 
> lexdec$plot.col <- ifelse(lexdec$Class == "animal", 
"#FF000099", "#@@FF0099") 

> plot(lexdec$Frequency, lexdec$RT, col = lexdec$plot.col, 
pch = 19, yaxt = "n", xaxt = "n", 
xlab = "Häufigkeit“, ylab = "Reaktionszeit (ms)", 
main = "Häufigkeit und Reaktionszeit in 'lexdec'") 

> axis(side = 1, at = 2:8, 
labels = round(exp(2:8))) 

> axis(side = 2, at = c(6, 6.5, 7, 7.5), 


3 Die Höhe der Hinges (der Linien, die oben und unten an der Box angelegt werden) 
definiert sich durch den höchsten bzw. niedrigsten zulässigen Wert, der tatsächlich 
auftritt. Im Allgemeinen ist diese Grenze durch 1,5-mal die Höhe der Box (= Interquar- 
tilabstand) definiert. 

4 Zusatzpakete werden in R über den Befehl library(<Paketname>) eingebunden. Diese 
Befehle finden Sie in den Code-Beispielen. Pakete müssen vor dem Einbinden ins- 
talliert werden. Sollten diese Pakete noch nicht auf Ihrem Rechner installiert sein, 
können Sie das mit dem Befehl install.packages(„<Paketname>“) tun. Für das Paket 
„languageR“ lautet der Befehl somit install.packages(,languageR‘). 


Reaktionszeit (ms) 
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labels = round(exp(c(6, 6.5, 7, 7.5)))) 
> lines(lowess(lexdec$Frequency, lexdec$RT), lwd = 3) 
> legend(x = "topright", col = c("red", "green"), pch = 19, 
legend = c("Tier", "Pflanze"), bty = "n", 
inset = 0.05, y.intersp = 1.5) 


Frequenz und Reaktionszeit in 'lexdec' 
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Abb. 1: Streudiagramm für die Reaktionszeit in Abhàngigkeit der Hàufigkeit 
im Datensatz „lexdec“ mit Lowess-Anpassungskurve (schwarz) und Aufteilung 
nach semantischer Klasse. 


Abb. ı zeigt das Ergebnis nach Evaluation des abgedruckten Codes. Zunächst 
wird die zusätzliche Variable plot.col definiert, die je nach Ausprägung der 
Variable Class (semantische Klasse) einen Wert für ein transparentes Rot? für 


5 Die Farben sind hier über RGB-Codes mit Alpha Channel angegeben. Die ersten zwei 
Werte definieren den Rotanteil, die zweiten zwei Ziffern den Grünanteil, die dritten 
zwei Ziffern den Blauanteil. Die Werte variieren zwischen oo (aus) und FF (komplett). 
Die letzten zwei Ziffern (Alpha Channel) definieren die Transparenz (variierend zwi- 
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Tierworter („animal“) oder ein transparentes Grün für Pflanzenwörter („plant“) 
enthält. In der nächsten Zeile wird der eigentliche Plot erstellt, zunächst noch 
ohne Achsen (Parameter xaxt und yaxt beide „n“). Dann werden die beiden 
Achsen hinzugefügt, die anstatt der in der Variable enthaltenen logarithmier- 
ten Werte die zurücktransformierten Werte der Variablen enthalten (exp() ist 
die Umkehrung von log()). Als Nächstes wird über den Aufruf von lines() eine 
Lowess-Anpassungslinie (vgl. Cleveland 1981) dem augenblicklich verwendeten 
Grafikgerät hinzugefügt. Zuletzt wird die Legende konfiguriert und ebenfalls in 
den Plot eingefügt. Die verwendeten Parameter der Funktionen können jeweils 
über ?<Funktionsname> in R eingesehen werden (bspw. ?legend für die Hilfe- 
seite von legend()). 

Wenn wir versuchen, die Visualisierung aus Abb. ı in das Schema in Tabelle 
ı einzuordnen, so finden wir den vorliegenden Variablentyp in der vorletzten 
Zeile beschrieben. Zu visualisieren sind nämlich zwei kontinuierliche Variablen 
_ Häufigkeit und Reaktionszeit (abgetragen auf x- und y-Achse) - sowie eine 
kategoriale Variable, die semantische Klasse (durch Farben symbolisiert). 

Einige Zusatzpakete benutzen und erweitern die Basisfunktionalität von R. 
So ist das Paket „sciplot“ (Morales 2012) nützlich für die schnelle Exploration 
von Daten, die in einem faktoriellen Design‘ gesammelt wurden oder in einem 
solchen abbildbar sind. Mit den Funktionen lineplot.CI() und bargraph.CI() kön- 
nen Linien- oder Balkendiagramme mit Fehlerindikatoren erzeugt werden. Der 
Aufruf ist dabei recht einfach. Es muss eine (vorzugsweise kategoriale) Variable 
angegeben werden, die die x-Achse definiert sowie eine binäre oder kontinuier- 
liche Variable, die die y-Achse definiert. Optional kann eine (kategoriale) Grup- 
pierungsvariable angegeben werden. Die Berechnung der gruppenspezifischen 
Standardfehler übernimmt dann lineplot.CI() oder bargraph.CI(). Für die Explo- 
ration der eigenen Daten (sofern sie auf diese Weise abgebildet werden können) 
reicht das Ergebnis meist schon aus. Mit ein wenig Mehraufwand können auch 
publikationsreife Grafiken erstellt werden. Ein weiteres Beispiel aus dem Daten- 
satz „lexdec“ verdeutlicht das Vorgehen. Wir tragen den Zusammenhang zwi- 
schen der Muttersprache der/des Befragten, der semantischen Klasse des Worts 
und der Reaktionszeit ab. 


schen oo = voll transparent und FF = voll deckend). Die Funktion alpha() aus dem 
Paket „scales“ erlaubt eine einfachere Definition von Transparenz in Kombination mit 
Farbnamen (bspw. alpha(,red“, 0.5) für halbtransparentes Rot). 

6 Die Funktionen im Paket „sciplot“ eignen sich am besten dazu, den Zusammenhang 
zwischen zwei gekreuzten kategorialen unabhängigen Variablen und einer kontinu- 
ierlichen abhängigen Variable zu analysieren. 


Reaktionszeit 
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> library(sciplot) 


> lineplot.CI(NativeLanguage, RT, Class, data = lexdec, 
xlab = "Muttersprache", ylab = "Reaktionszeit") 
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Abb. 2: Beispiel für einen Interaktionsplot mit dem Paket „sciplot“. Abgetra- 
gen ist die Beziehung zwischen der Muttersprache der Teilnehmenden, der 
semantischen Klasse des Worts und der Reaktionszeit in einer lexikalischen 
Entscheidungsaufgabe. Die Fehlerbalken symbolisieren 1 Standardfehler. 


Abb. 2 zeigt das Ergebnis des Aufrufs. Die Grafik ist in dieser Form wohl noch 
nicht publikationsreif, insbesondere auch, weil die Linien zwischen den Daten- 
punkten zwar den potenziellen Interaktionseffekt (der noch anhand eines linea- 
ren Modells zu überprüfen wäre) gut hervorheben, im Grunde aber irreführend 
sind, da zwischen den Stufen „English“ und „Other“ des Faktors NativeLanguage 
keine Werte vorhanden sind. Für die Publikation wäre es daher eher angemes- 
sen, die Linien wegzulassen und die Datenpunkte leicht gegeneinander zu ver- 


schieben, damit die (Nicht-)Uberlappung der Fehlerbalken leichter abgelesen 
werden kann. 


236 — Sascha Wolfer / Sandra Hansen-Morath 


Insbesondere für explanatorische Visualisierungen, die zur Veröffentlichung 
bestimmt sind, brauchen wir R-Grafiken in Bild-Dateien (.jpg/.png/...). Um ein 
solches Dateiformat zu erhalten, können wir entweder die Grafikexport-Funk- 
tion von RStudio’ verwenden oder aber vor dem Erstellen der Grafiken mit den 
Funktionen jpeg(), png() usw. ein spezielles Grafikgerät starten. R wird dann den 
Grafikoutput nicht auf dem Bildschirm darstellen, sondern direkt in die Datei 
schreiben. Nachdem die Grafik in die Datei geschrieben wurde, müssen wir das 
Gerät wieder mit dev.off() schließen. Der Vorteil dieser Exportart liegt in den 
damit verbundenen Anpassungsmöglichkeiten. Über verschiedene Parameter 
wie bspw. height, width und res können wir die genauen Abmessungen und die 
Auflösung der zu erstellenden Grafik beeinflussen.’ Der folgende Beispielaufruf 
verdeutlicht dieses Vorgehen: 


> png("VisLing-testplot.png", width = 2000, height = 1600, res = 250) 
> plot(rnorm(10@@) ) 
> dev.off() 


Das Arbeitsverzeichnis (abrufbar mit der Funktion getwd()) enthält nun eine 
Datei „VisLing-tesplot.png“ mit einer Breite von 2000 Pixeln, einer Höhe von 
1600 Pixeln und einer Auflösung von 250 ppi. Der Plot enthält 1000 zufällig nor- 
malverteilte Datenpunkte. 

Sollen Grafikdateien in vektorbasierte Formate wie bspw. EPS (Encapsulated 
Postscript) oder SVG (Scalable Vector Graphics) exportiert werden, bietet Rauch 
diese Möglichkeit. EPS-Dateien können über den Befehl postscript() erstellt wer- 
den, SVG-Dateien werden mit svg() erzeugt. 

Aus den vorangegangenen Anwendungsbeispielen wurde deutlich, dass 
bereits das Basispaket in R äußerst vielfältige Visualisierungsmöglichkeiten 
bereithält. Selbstverständlich kann in diesem Rahmen nur ein kleiner Teil der 
Möglichkeiten präsentiert werden. Die Logik ist aber fast immer dieselbe: Eine 
Funktion beginnt entweder einen neuen Plot oder fügt Elemente in das augen- 
blicklich geöffnete Grafikgerät ein. Auf diese Weise kann jeder Plot nach eigenen 
Wünschen konfiguriert und erweitert werden. 


7 RsStudio ist die wohl am weitesten verbreitete Entwicklungsumgebung für R. RStudio ist 
frei verfügbar unter www.rstudio.com/products/RStudio (letzter Zugriff am 13.05.2016). 
RStudio bietet viele Unterstützungen bei der Arbeit mit R an, auf die wir an dieser Stelle 
aber nicht umfassend eingehen können. Nützliche Funktionen sind unter anderem 
die Syntaxhervorhebung und -vervollständigung, viele Tastenkombinationen, die die 
Arbeit mit R unterstützen, Fehlerprüfungen und Versionskontrollfunktionen. 

8 Für weitere Parameter siehe die Hilfeseite zu ?png. 
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2.2 Visualisierung kategorialer Daten: Das Paket ,vcd“ 


Mit dem Paket „vcd“ ist es möglich, kategoriale Daten auf verschiedene Art und 
Weise zu visualisieren. Unter kategorialen Merkmalen versteht man Größen, die 
endlich viele Ausprägungen besitzen und höchstens ordinalskaliert sind (Fahr- 
meir et al. 2007). Beispiele für kategoriale Variablen sind Muttersprache oder 
Wohnort eines Autors. Mithilfe des Pakets „vcd“ sind eine Vielzahl an verschie- 
denen Plots möglich. Zu nennen sind hier beispielsweise der Mosaikplot, der 
Sieveplot’ und der Assoziationsplot. Im Rahmen des vorliegenden Artikels wer- 
den wir zeigen, wie Mosaik- und Assoziationsplots erstellt und gelesen werden 
können. Hierzu nutzen wir ein Beispiel aus einer Analyse von Fürbacher (2015), 
die in einer Studie zu Genitivallomorphen im Deutschen bei starken Maskulina 
und Neutra zeigt, dass für die Variation der Genitivallomorphe -es und -s neben 
sprachimmanenten Faktoren auch regionale Einflüsse eine Rolle spielen können. 
Da kategoriale Daten üblicherweise durch Kontingenztabellen analysiert und 
visualisiert werden, bilden sie die Grundlage für Analysen mit dem Paket „vcd“. 
Tabelle 2 zeigt eine solche Kontingenztabelle mit den absoluten Trefferzahlen 
für die Lemmata mit den Genitivendungen -es und -s in den Regionen Nordost, 
Südost (inklusive Österreich), Nordwest und Südwest (inklusive der Schweiz) 
aus der Analyse von Fürbacher (2015).'° 


Tabelle 2: Absolute Trefferzahlen für Lemmata mit den Genitivendungen -es/-s 
in Abhängigkeit von der Sprachregion nach Fürbacher (2015) 


-es -S 
Nordost 425 369 
Südost 1435 573 
Nordwest 239 235 
Südwest 435 438 


Wir erstellen in einem ersten Schritt die Kontingenztabelle in R. Hierzu generie- 
ren wir zunächst für jede Region einen Vektor mit den absoluten Häufigkeiten 
für die Genitivendungen -es und -s. 


9 In Sieveplots werden Rechtecke geplottet, deren Flächeninhalte proportional zu den 
erwarteten Häufigkeiten der entsprechenden Tabellenzelle sind. In die Rechtecke 
werden Quadrate gezeichnet, die die beobachteten Häufigkeiten kennzeichnen. Die 
Dichte der ausgefüllten Rechtecke symbolisiert somit die Abweichung zwischen 
erwarteten und beobachteten Häufigkeiten. 

10 Für eine detailliertere Beschreibung der Daten und Auswertungen der Studie vgl. Für- 
bacher (2015) und Hansen & Wolfer (i. Vorb). 
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> Nordost <- c(425, 369) 
> Südost <- c(1435, 573) 
> Nordwest <- c(239, 235) 
> Südwest <- c(435, 438) 


Über die Funktion rbind() werden die Vektoren zu einer Tabelle zusammenge- 
fügt und in der Variable tab gespeichert. Anschließend werden die Spaltenna- 
men über die Funktion colnames() vergeben. 


> tab <- rbind(Nordost, Südost, Nordwest, Südwest) 
> colnames(tab) <- c("es", "s") 
> tab 
es s 
Nordost 425 369 
Südost 1435 573 
Nordwest 239 235 
Südwest 435 438 


Auf Basis der vorliegenden Kontingenztabelle können nun die Analysen durch- 
geführt werden. Als Visualisierungsform wählen wir einen Mosaikplot (vgl. 
Abb. 3). Die Häufigkeiten werden über die Größe der Flächeninhalte der einzel- 
nen Rechtecke dargestellt (vgl. Friendly 1994; Meyer et al. 2006). Darüber hinaus 
werden in dem Plot auch die signifikante Pearson-Residuen™ (standardisierte 
Abweichungen der beobachteten von den erwarteten Häufigkeiten), angezeigt. 
Der Plot wird mit der Funktion mosaic() erstellt, die Schattierungen werden 
gemäß den Residuen über den Parameter shade = TRUE eingefügt. 


> library(vcd) 
> mosaic(tab, shade = TRUE) 


Der Mosaikplot ist wie folgt zu lesen: Jedes Rechteck im Plot steht für eine Zelle 
der Kontingenztabelle. Der Flächeninhalt des Rechtecks links oben bezieht sich 
zum Beispiel auf die Häufigkeit der Genitivendung -es in der Region Nordost des 
deutschen Sprachraums. Es wird erkennbar, dass die meisten Tokens (-es und 
-s) im Korpus im Südosten vorkommen, denn die zweite Zeile an Rechtecken ist 
am höchsten. Die Einfärbung der Rechtecke symbolisiert die Pearson-Residuen. 
Sind die Pearson-Residuen signifikant (Betrag größer 1,97), werden sie im Plot 
eingefärbt: Die Farbe Blau steht für signifikante Abweichungen nach oben, die 


11 Pearson-Residuen berechnen sich aus der Differenz der beobachteten und erwarteten 
Häufigkeiten geteilt durch die Wurzel der erwarteten Häufigkeiten. 
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Farbe Rot für signifikante Abweichungen nach unten. Wird die Schwelle von 
+/- 4 überschritten, werden die Balken in einem stärkeren Ton eingefärbt, da hier 
von einer besonders starken Abweichung ausgegangen werden kann. Die Zuord- 
nung von Einfärbungsgrad zu Residuenhöhe wird rechts neben dem Plot durch 
eine Legende dargestellt. Unterhalb der Legende wird außerdem der p-Wert 
eines Chi?-Tests ausgegeben, mit dem überprüft wird, ob die Ausprägungen der 
Variablen voneinander unabhängig sind (vgl. Bortz 2005: 168ff.).12 

Bezogen auf das Beispiel zeigt der Mosaikplot, dass im Südosten die Genitiv- 
endung -es signifikant überrepräsentiert ist, während sie in den anderen Regio- 
nen signifikant unterrepräsentiert ist. Im Südwesten dominiert sogar die kürzere 
Endung -s. 

Durch eine Anpassung über den Parameter labeling im Aufruf werden die 
genauen Werte für die standardisierten Residuen für jedes Rechteck im Plot 
angezeigt (vgl. Abb. 4): 


12 Laut Konvention spricht man ab einer Irrtumswahrscheinlichkeit kleiner 5 % (p < 
0.05) von einem signifikanten, ab 1% (p < 0.01) von einem hochsignifikanten und ab 
0,1 % (p < 0.001) von einem höchstsignifikanten Unterschied. 
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> mosaic(tab, shade = TRUE, 
labeling=labeling_values(value_type=c("residuals"))) 


Eine weitere Möglichkeit, die standardisierten Abweichungen zwischen beob- 
achteten und erwarteten Häufigkeiten darzustellen, bietet der Assoziationsplot 
(vgl. Cohen 1980; Friendly 1992; Meyer et al. 2006). Hierzu kann folgender Aufruf 
verwendet werden: 


> assoc(tab, shade = TRUE, 
labeling = labeling_values(value_type=c("residuals"))) 


Pearson 
residuals: 


5.96 


Nordost 


2.00 


Südost 
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Abb. 4: Mosaikplot für die Genitivallomorphe -es und -s in Abhängigkeit von 
Regionen mit der Angabe der Pearson-Residuen für jedes Rechteck. 


Abb. 5 zeigt den Assoziationsplot für das vorliegende Beispiel. Abgetragen wer- 
den die standardisierten Residuen der beiden Genitivendungen in Abhängigkeit 
von der regionalen Verteilung. Die Höhe der Balken entspricht der Höhe der 


Nordost 


Südost 


Nordwest 


Südwest 
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Abb. 5: Assoziationsplot für die Genitivallomorphe -es und -s in Abhàngigkeit 
von Regionen mit Angabe der Pearson-Residuen für jedes Rechteck. 


Abweichung: Balken oberhalb der gepunkteten Linie bedeuten höhere, Bal- 
ken unterhalb der Linie niedrigere Werte als erwartet. Die genauen Werte der 
Pearson-Residuen werden hier ebenfalls durch die Anpassung des Parameters 
labeling angezeigt. Die Breite der Balken spiegelt die erwartete Häufigkeit der 
Realisierungsvarianten wider. Ist der Betrag des entsprechenden Pearson-Resi- 
duums größer 1,97, wird der Balken im Plot eingefärbt (vgl. Hansen-Morath et 
al., i. Vorb.). 

Wie auch im Mosaikplot abzulesen ist, weist der Wert der Residuen in unse- 
rem Beispiel im Südosten mit 6,0 für -es bzw. -7,5 für -s, aber auch im Südwesten 
mit -4,3 für -es bzw. 5,3 für -s auf eine besondere Bedeutung der Abweichung 
für die Signifikanz der Unterschiede hin (vgl. Fürbacher 2015). Laut Fürbacher 
könnte der signifikant häufigere Gebrauch der es-Endung im Südosten durch 
eine kompensierende Funktion gegenüber der gesprochenen Sprache bedingt 
sein, da in dieser der Schwa-Laut gemieden wird (vgl. ebd.; Tatzreiter 1988: 79). 
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2.3 Visualisierung von Modellschatzern: Das Paket „effects“ 


In einigen Fällen ist es unerlässlich, nicht Rohdaten, sondern von statistischen 
Modellen geschätzte Daten zu visualisieren. Schon bei einfachen linearen Model- 
len”, die mehr als einen Prädiktor enthalten, können die Schatzwerte von den 
Rohwerten abweichen. Unter Umständen kann sich das Verhältnis zweier Grup- 
pen im Vergleich zwischen Modellschätzern und Zellmittelwerten sogar umkeh- 
ren. Das kann vorkommen, da bei der Berechnung des Einflusses von Prädiktor 
x, Effekte anderer Prädiktoren x;, x; ... Xn berücksichtigt werden und vice versa. 
Tragen wir also Zellmittelwerte ab, um die Ergebnisse eines linearen Modells zu 
visualisieren, haben wir das Problem, dass unsere Visualisierung nicht dieselben 
(und evtl. sogar in ihrer Aussage entgegengesetzte) Werte darstellt, wie wir im 
statistischen Modell berechnet haben. 

Ein Minimalbeispiel anhand des Datensatzes „lexdec“ illustriert das Problem. 


> library(languageR) 
> library(effects) 
> mod1 <- lm(RT ~ Class + Frequency, data = lexdec) 


Mit der letzten Code-Zeile sagen wir die logarithmierte Reaktionszeit (RT)'* aus 
der semantischen Klasse (Class, „plant“ vs. ,animal*) und der Häufigkeit (Fre- 
quency) des Wortes mithilfe eines linearen Modells vorher. Obwohl die Inter- 
aktion der beiden Variablen nicht in der Vorhersage beachtet wurde, zeigt sich 
bereits, dass die Modellschätzwerte leicht von den Zellmittelwerten für Pflanzen 
und Tiere abweichen. 


> tapply(lexdec$RT, lexdec$Class, mean) # Zellmittelwerte 
animal plant 

6.387746 6.381751 

> Effect("Class", mod1) # Extraktion der Modellschätzer 

Class effect 

Class 
animal plant 

6.406457 6.358228 


13 Mit linearen Modellen (bspw. einer linearen Regression) sagt man eine Kriteriumsva- 
riable aus einer oder mehreren Prädiktorvariablen vorher (zur Einführung vgl. Bortz 
(2005: 483ff). In linearen Modellen können auch kategoriale Variablen als Prädiktoren 
verwendet werden. Im Beispiel in diesem Abschnitt werden eine kategoriale Variable 
(Class) und eine kontinuierliche Variable (Frequency) als Prädiktoren verwendet. 

14 Reaktionszeiten sind typischerweise rechtsschief verteilt. Um diese Verteilung in eine 
Normalverteilung zu überführen, ist es zulässig, die Variable einer Log-Transforma- 
tion zu unterziehen. 
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Der Unterschied zwischen beiden Gruppen ist bei den Schätzwerten größer: Die 
Differenz der geschätzten Mittelwerte beträgt dort 0,0482. Im Vergleich dazu 
beträgt die Differenz für die rohen Mittelwerte lediglich 0,00599. Durch die Ein- 
beziehung der Häufigkeit als Prädiktor wird offenbar so viel Rauschen in den 
Daten kontrolliert, dass der Effekt des anderen Prädiktors (semantische Klasse) 
stärker hervortritt. Da wir das auch in der Visualisierung der Datenauswertung 
beachten wollen, sollten wir also nicht die Zellmittelwerte abtragen. 

Durch eine Kombination von plot() mit den Funktionen des Pakets „effects“ 
können wir die vom Modell geschätzten Werte visualisieren. Wir demonstrieren 
die Mächtigkeit des Pakets anhand eines Beispiels, in dem wir die Korrektheit 
der Antwort auf lexikalische Entscheidungsaufgaben vorhersagen. Da Korrekt- 
heit eine binäre Variable („correct“ vs. „incorrect“) ist, ist die logistische Regres- 
sion (Pampel 2000) ein geeignetes statistisches Instrument. Eine solche fordern 
wir mit der Funktion glm() für „generalisiertes lineares Modell“ und dem Para- 
meter family = „binomial“ an (vgl. Field 2012: 329f). Als Prädiktoren nehmen wir 
die Häufigkeit sowie die semantische Klasse des Wortes auf sowie die Interak- 
tion zwischen den beiden Variablen. In den ersten beiden Code-Zeilen werden 
zunächst die Variablen Correct'” und Frequency” vorbereitet. 


> lexdec$Correct <- lexdec$Correct == "correct" 
> lexdec$c.Frequency <- scale(lexdec$Frequency, scale = F) 


> mod2 <- glm(Correct » c.Frequency * Class, 


data = lexdec, family = "binomial") 
> plot(allEffects(mod2), 
multiline = T, ci.style = "bands", 


xlab = "Häufigkeit", 
ylab = "Geschätzte Wahrscheinlichkeit für korrekte Antwort", 


main = "Interaktionsplot Häufigkeit X Semantische Klasse") 


Abb. 6 zeigt die grafische Ausgabe des letzten Aufrufs. Zuerst werden über 
die Funktion allEffects() alle Effekte höchster Ordnung!” aus dem statistischen 
Modell mod2 extrahiert. Durch die Verschachtelung der Funktionen wird das 


15 DaR die Stufen einer Variable alphabetisch sortiert, ist für die Variable Correct die 
erste Stufe „correct“ und die zweite Stufe „incorrect“. In der Vorhersage würde ein 
positives Vorzeichen somit bedeuten, dass sich die Wahrscheinlichkeit einer falschen 
Antwort erhöht. Da das nicht gerade intuitiv ist, drehen wir im ersten Aufruf die Stu- 
fen der Variable um („correct“ wird zu TRUE, logisch wahr, und „incorrect“ wird zu 
FALSE, logisch falsch). 

16 Wann immer eine kontinuierliche Variable in eine Interaktion eingeht, sollte diese zent- 
riert werden (Verschieben des Mittelwerts auf o). Das geschieht mit dem zweiten Aufruf. 

17 „Höchster Ordnung“ bedeutet hier, dass bei interagierenden Variablen nur der Inter- 
aktionseffekt extrahiert wird, nicht die isolierten Effekte der Variablen. Würde das 
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Abb. 6: Interaktionsplot für die geschätzte Wahrscheinlichkeit einer korrekten 
Antwort in einer lexikalischen Entscheidungsaufgabe in Abhängigkeit von 
Worthäufigkeit und semantischer Klasse. Fehlerindikatoren symbolisieren 
95 %-Konfidenzintervalle. 


Ergebnis dieser Extraktion direkt an plot() übergeben.'° Dieser Aufruf enthält 
einige zusätzliche Argumente. xlab, ylab und main steuern lediglich die Ach- 
sen- und Titelbeschriftungen. multiline = T sorgt dafür, dass beide Linien für 
die Stufen der interagierenden Variable Class in einem Plot abgetragen werden 
und nicht — wie es in der Standardeinstellung der Fall wäre - in zwei separa- 
ten Panels. ci.style = „bands“ bewirkt, dass um diese Linien Konfidenzintervalle 
gezeichnet werden. Auffällig ist die Beschriftung der y-Achse, auf der die tat- 
sächlich geschätzten Wahrscheinlichkeiten abgetragen werden. Durch die Trans- 
formationen der Kriteriumsvariable, die einer logistischen Regression inhärent 


Modell noch einen dritten Prädiktor enthalten, der nicht in eine Interaktion eingeht, 
würde dieser ebenfalls extrahiert. 

18 Intern erkennt R, dass es sich bei dem an plot() übergebenen Objekt um ein effects- 
Objekt handelt, und benutzt daher plot.eff(). Die Hilfeseite zu dieser Funktion (?plot. 
eff) enthält Erklärungen zu den übergebenen und einigen anderen Parametern. 
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sind, müssen die Abstände zwischen den Skalenstrichen, die die geschätzte 
Wahrscheinlichkeit angeben, entsprechend angepasst werden. Diese Anpassung 
sowie die Rücktransformation in einfacher interpretierbare Wahrscheinlichkei- 
ten werden vom Zusatzpaket „effects“ übernommen. 

Die Interaktion der beiden Variablen Class und c.Frequency ist nicht signifi- 
kant. Dies kann man über einen Aufruf von summary(mod2) sehen: Die Werte 
für die Interaktion lauten ß = 0,342; SE = 0,242; z = 1,413 und p = 0,158. Der 
Unterschied der beiden Geraden-Steigungen in Abb. 6 ist also nicht groß genug, 
um anzunehmen, dass die Häufigkeit bei Tiernamen einen anderen Einfluss auf 
die Korrektheit hat als bei Pflanzennamen. 

Abb. 6 enthält außerdem einen sogenannten „rug plot“. Die kleinen Striche 
am unteren Rand des Plotbereichs geben an, an welchen Stellen auf der x-Achse 
(also bei welchen Häufigkeiten) sich tatsächlich Datenpunkte befinden. Daraus 
gewinnen wir einerseits einen Eindruck von der Häufigkeitsverteilung der im 
Experiment verwendeten Wörter. Andererseits hilft es uns einzuschätzen, ob 
dem statistischen Modell über das komplette Spektrum hinweg ausreichend 
Datenpunkte zugrunde lagen, um eine Schätzung vorzunehmen. Würde sich im 
Rug-Plot beispielsweise zeigen, dass nur sehr seltene und sehr häufige Wörter in 
der Datenbasis vorhanden sind, könnte das auf ein Problem hindeuten. Im Falle 
von Abb. 6 scheinen über das komplette Häufigkeitsspektrum hinweg Daten- 
punkte vorhanden zu sein. 

Wir fassen also für diesen Abschnitt zusammen: Wollen wir die Ergebnisse 
eines statistischen Modells (bspw. eines linearen Modells) visualisieren, sollten 
wir nicht auf Rohmittelwerte zurückgreifen, sondern die Schätzwerte aus dem 
Modell selbst extrahieren. Verschiebungen, die sich durch die Aufnahme anderer 
Prädiktoren ergeben, werden so auch in die Visualisierung übernommen. Das 
Paket „effects“ stellt Funktionen bereit, die die Extraktion und Visualisierung der 
Modellschätzer übernehmen. Dies ist unter anderem auch für die komputational 
aufwändigeren gemischten Modelle der Fall. Die Plots sind auf vielfältige Weise 
über Parameter anpassbar. Wenn für eine Veröffentlichung ein ganz bestimm- 
tes Format an Schaubildern nötig ist, kann man auch die extrahierten Werte in 
eigens erstellte Plots übernehmen. 
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3. Alternative Plot-Pakete 


Mitte Mai 2016 waren allein auf dem Comprehensive R Archive and Network” 
(CRAN) ca. 8300 Zusatzpakete für R verfügbar. Darin sind Pakete aus anderen 
Repositorien wie bspw. Bioconductor” noch nicht mit eingerechnet. Unter die- 
ser großen Menge befinden sich natürlich auch einige Pakete, die speziell auf die 
Erzeugung von Grafiken, Schaubildern und Visualisierungen ausgerichtet sind. 
Der CRAN Task View zu „Graphics“ ist ein sehr guter Ausgangspunkt, um sich 
einen Überblick zu verschaffen. Wer sich für die Visualisierung von räumlichen 
Daten (bspw. auf Landkarten) interessiert, findet außerdem ausführliche Infor- 
mationen auf dem Task View zu „Spatial Data“.”” In diesem Abschnitt werden 
wir uns auf die Vorstellung zweier Pakete beschränken. Das erste, „ggplot2“, ist 
relativ prominent und breit genutzt. Das zweite, „rCharts“, befindet sich noch in 
der Entwicklungsphase und wird noch nicht von vergleichbar vielen Personen 
benutzt.” Es scheint uns aber insofern interessant zu sein, als es eine Verbindung 
herstellt zwischen R und der JavaScript-Visualisierungsbibliothek d3.js, „Data 
Driven Documents’, die in jüngster Zeit an Bedeutung gewonnen hat. 


3.1 „Grammar of Graphics": Das Paket „ggplot2" 


Hadley Wickham erklärt die Grundidee jeglicher Grafikerstellung folgender- 
maßen: „[A] statistical graphic is a mapping from data to aesthetic attributes 
(colour, shape, size) of geometric objects (points, lines, bars)” [Hervorhebungen 
SW und SHW] (Wickham 2009: 3). In diesem Zitat sind alle relevanten Konzepte, 
die in „ggplot2“ zum Einsatz kommen, bereits angesprochen. Die Daten setzen 
sich aus unseren Beobachtungen, den Variablen im Datensatz sowie deren Merk- 
malsausprägungen zusammen. Über den Abbildungsprozess (mapping) werden 
diese Daten dann auf die ästhetischen Attribute der geometrischen Objekte (in 
»ggplot2“-Terminologie „geoms“) abgebildet. Wie Eugster und Scheipl in einer 
Präsentation?” anmerken, ist die Grammar of Graphics von Wilkinson (2005) 


19 https://cran.r-project.org/web/packages (letzter Zugriff am 13. Mai 2016). 

20 https://www.bioconductor.org (letzter Zugriff am 13. Mai 2016). 

21 https://cran.r-project.org/web/views/Graphics.html (letzter Zugriff am 13. Mai 2016). 

22 https://cran.r-project.org/web/views/Spatial.html (letzter Zugriff am 13. Mai 2016). 

23 Dies sind unsere Einschätzungen. Die tatsächliche Nutzung eines Pakets lässt sich nur 
schwer operationalisieren. Insbesondere wenn das Paket nicht auf CRAN verzeichnet 
ist, wie im Falle von „rCharts“. 

24 https://d3js.org/ (letzter Zugriff am 13. Mai 2016). 

25 http://www.statistik.Imu.de/-scheipl/downloads/grafiken-o5-ggplot2.pdf (letzter Zu- 
griff am 13. Mai 2015). 
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keine ,Anleitung, welche Grafik zu erzeugen ist, um eine konkrete Fragestel- 
lung zu untersuchen“, und keine „Spezifikation, wie eine statistische Grafik aus- 
schauen sollte“. Vielmehr ist diese Grammatik als ein „formales Regelwerk“ zu 
verstehen, „welches die Zusammenhänge zwischen allen Elementen einer (gän- 
gigen) statistischen Grafik beschreibt“ (siehe Folie 6 der Präsentation von Eugs- 
ter und Scheipl). 

Die Funktionsweise von ,ggplot2“ soll anhand eines einfachen Beispiels 
erläutert werden. Wir benutzen dazu den Datensatz „ratings“ aus dem Paket 
„languageR“, der subjektive Einschätzungen (z. B. das Gewicht) zu 81 Items 
(bspw. ant, apple, woodpecker) enthält (für nähere Erläuterungen siehe ?ratings). 


> library(languageR) 

> library(ggplot2) 

> ggplot(data = ratings) + 
aes(x = Frequency, y = meanWeightRating, col = Class) + 
geom_point() + 
geom_smooth() + 


geom_rug() 


Ergebnis des Aufrufs ist die in Abb. 7 abgedruckte Grafik. Man erkennt im Aufruf 
die verschiedenen Elemente des obigen Zitats wieder: In der ersten Zeile wird 
der Datensatz spezifiziert. In der Funktion aes() werden die ästhetischen Abbil- 
dungen vorgenommen. Dabei wird die x-Achse mit der Korpushäufigkeit, die 
y-Achse mit der durchschnittlichen Einschätzung des Gewichts und die Farbe 
der Datenpunkte mit der semantischen Klasse („animal“ vs. „plant“) belegt. 
Zuletzt werden noch drei geeignete geoms hinzugefügt. Die Datenpunkte selbst 
mit geom_point(), die Anpassungslinien mit geom_smooth() sowie die Rug-Plots 
mit geom_rug(). Zur Interpretation von Rug-Plots, siehe Abschnitt 2.3. Die ver- 
schiedenen Elemente werden mit dem Zeichen + verkniipft”®. 

„ggplot2“ übernimmt einige Dinge selbst: Die Legende wird automatisch 
erzeugt und auch die Anpassungslinien werden automatisch für die beiden farb- 
lich unterschiedenen Gruppen getrennt erzeugt. Würden wir nicht nach Farbe 
gruppieren, wäre nur eine Anpassungslinie für die komplette Punktwolke zu 
sehen. Die geoms übernehmen die jeweils geeigneten Zuordnungen aus dem 
Aufruf von aes() - deshalb sind auch die Linien der Rug-Plots nach Gruppen ein- 
gefärbt. So kann man relativ leicht erkennen, dass sich die beiden Gruppen auf 
der y-Achse kaum mischen. Das Gewicht von Tieren wird offenbar systematisch 
als höher eingeschätzt als das von Pflanzen/Früchten. Die Anpassungslinien 


26 Die Bedeutung von + ist hier nicht als arithmetische Operation (Addition) zu verstehen 
und auch nicht im Sinne eines Formeloperators wie im Im()-Aufruf in Abschnitt 2.3. 
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Abb. 7: Mit dem Paket , ggplot2” erstellte Grafik, die den Zusammenhang 
zwischen der Häufigkeit eines Wortes, dessen semantischer Klasse und der 
durchschnittlichen Einschätzung des Gewichts des bezeichneten Tieres bzw. 
der Pflanze visualisiert. Eingefügt wurden außerdem Anpassungslinien für 
beide Gruppen sowie Rug-Plots für die x- und y-Werte. 


deuten auf einen nicht-linearen, u-förmigen Zusammenhang zwischen Wort- 
häufigkeit und durchschnittlicher Schätzung des Gewichts hin, was natürlich 
noch statistisch abzusichern wäre. 

Grafiken, die mit „ggplot2“ erstellt wurden, sehen meist schon in der Stan- 
dardausführung sehr ansprechend und „aufgeräumt“ aus und sind insbesondere 
zu explanatorischen Zwecken gut geeignet, bspw. zur Verwendung in Veröffent- 
lichungen. Eine Grafik wie Abb. 5 mit dem Basisgrafikpaket von R zu erstellen, 
ist zwar nicht unmöglich, es bräuchte aber sicherlich deutlich mehr Code-Zeilen 
als mit der Erstellung mit „ggplot2“. 

Wir konnten hier nur einen kleinen Eindruck vom Paket „ggplot2“ vermit- 
teln und versuchen, die Grundidee zu verdeutlichen. Es gibt eine Reihe sehr 
guter Online-Tutorials für „ggplot2“. Empfohlen sei hier ein ausführliches Tuto- 
rial, das vom Institute for Quantitative Social Science der Harvard University 
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bereitgestellt wird’. Außerdem bietet die mit dem Paket assoziierte Dokumenta- 
tionsseite” u. a. einen Überblick über alle geoms, die von dem Paket unterstützt 
werden. 


3.2 Interaktive Grafiken mit d3: Das Paket „rCharts” 


Ein weiteres Paket, das wohl eher explanatorisch als explorativ ausgerichtet ist, 
ist das Paket „rCharts“?°. Es scheint geeignet zu sein, in Zukunft die Lücke zwi- 
schen R und der JavaScript-Bibliothek Data Driven Documents (d3) schließen zu 
können. Interessant ist d3 unter anderem aufgrund der Möglichkeit, interaktive 
Grafiken zu erstellen. ,rCharts“ ist momentan noch nicht über den zentralen 
R-Paketverteiler CRAN verfügbar, sondern nur über GitHub.” Die Installation 
ist nicht sonderlich schwierig, wenn man zuerst das R-Paket „devtools“ instal- 
liert. „devtools“ enthält eine Funktion, mit dem man von GitHub R-Pakete instal- 
lieren kann.’ Mit der folgenden Sequenz von Befehlen sollte „rCharts“ auf dem 
eigenen Rechner verfügbar sein: 


> install.packages("devtools") 

> library(devtools) 

> install_github('rCharts', 'ramnathv') 
> library(rCharts) 


Ein warnendes Wort vorweg: Mit „rCharts“ können zwar ansprechende interak- 
tive Grafiken erstellt werden, da sich das Paket noch in der Entwicklung befindet, 
ist die Dokumentation jedoch noch recht lückenhaft. Das heißt, dass man ent- 
weder grundlegende Kenntnisse in JavaScript besitzen muss, um mit dem Paket 
gute Ergebnisse zu erzielen, oder etwas experimentieren muss, bis man zum 
gewünschten Ergebnis kommt. Wer es aber schließlich geschafft hat, einen Plot 
zu erstellen, wird mit einem visuell ansprechenden interaktiven Plot „belohnt“. 
Die Ergebnisse der folgenden Aufrufe sind lediglich über Links verfügbar, da 
„rCharts“ HTML-Dateien erstellt, deren interaktive Elemente im gedruckten 


27 http://tutorials.ig.harvard.edu/R/Rgraphics/Rgraphics.html (letzter Zugriff am 13. 
Mai 2016). 

28 docs.ggplot2.org (letzter Zugriff am 13. Mai 2016). 

29 Die mit dem Paket assoziierte Website ist unter rcharts.io (letzter Zugriff am ı3. Mai 
2016) erreichbar. 

30 GitHub ist ein Webhosting-Service, auf dem man u. a. Code für R-Pakete bereitstellen 
und versionieren kann. 

31 Da sich, wie erwähnt, „rCharts“ noch in der aktiven Entwicklung befindet, kann sich 
die Installationsprozedur eventuell ändern. 
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Text selbstverständlich nicht dargestellt werden können. Wir werden mit einem 
Beispiel beginnen, mit dem wir das in Abschnitt 3.1 in Abb. 7 gezeigte Diagramm 
replizieren werden. 


> library(rCharts) 

> library(languageR) 

> pl <- nPlot(x = "Frequency", y = "meanWeightRating", group = "Class", 
data = ratings, type = "scatterChart") 

pl$params$width <- 1000 

pl$params$height <- 600 

pl$yAxis(axisLabel = 'Mittleres geschätztes Gewicht') 
pl$xAxis(axisLabel = 'Häufigkeit') 

pl$chart(showDistY = 'true') 

pl$chart(showDistX = 'true') 


SW MOO SI NO TSS U 2 


> pl$chart(color = c("orange", "blue")) 
> pl$chart(tooltipContent = “#! function (a, b, c, data) { 
return data.point.Word 
} 1#“) 
> pl 


Das Ergebnis dieses Aufrufs ist eine HTML-Datei, die ein interaktives Diagramm 
enthält und unter https://doi.org/10.11588/data/6SO6TG verfügbar ist (Datei „pl. 
html“). Was genau geschieht im obigen Aufruf? Zunächst laden wir die nötigen 
Pakete. Dann wird ein Plot mit der Funktion nplot() erstellt. Die Funktion nplot() 
nutzt die d3-Bibliothek „NVD3“?? und kann mehrere Arten von Visualisierungen 
erstellen. Wir wählen hier den Typ „scatterChart“. Außerdem müssen wir die 
Variablen für x- und y-Achse sowie den Datensatz angeben. Die Gruppierungs- 
variable ist fakultativ und kontrolliert hier u. a. die Farbe der Datenpunkte. Im 
Folgenden werden einige Eigenschaften des in der Variable „pl“ gespeicherten 
Plots verändert: zuerst die Abmessungen (width, height), dann die Beschriftun- 
gen der Achsen (axisLabel). Über die beiden nächsten Zeilen (showDistX/Y) akti- 
vieren wir die Option, dass die Verteilung der Datenpunkte an der x- und y-Achse 
über Rug-Plots dargestellt wird. Die Kolorierung der Datenpunkte für die beiden 
semantischen Klassen wird in der nächsten Zeile in Orange und Blau geändert. 
Die vorletzte Zeile enthält einen Aufruf, der den Inhalt des Tooltips steuert. Die- 
ser wird angezeigt, wenn die Benutzerin/der Benutzer mit der Maus über einen 
Datenpunkt fährt. In diesem Fall soll das konkrete Wort angezeigt werden. Diese 
Zeile enthält schon ein wenig JavaScript-Code. In der letzten Zeile wird der Plot 
nur noch „ausgeführt“ und im HTML-Viewer von RStudio angezeigt. 


32 http://nvd3.org/ (letzter Zugriff am 17. Mai 2016). 
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Wo liegen nun die interaktiven Elemente dieser Visualisierung? Zunàchst 
können oben links mit einem Klick auf den Farbpunkt neben „plant“ und „ani- 
mal“ die Gruppen aktiviert und deaktiviert werden. Deaktiviert man eine der 
beiden Gruppen, verschwinden die Datenpunkte und die Skalierung der Achsen 
wird neu auf die dargestellten Datenpunkte ausgerichtet. Über die Aktivierung 
der ,,Magnify“-Option oben links wird in einen „Fischaugenmodus“ umgeschal- 
tet, in dem über die Maus gesteuert werden kann, welche Bereiche des Graphen 
vergrößert dargestellt werden. Die Achsen werden hier dynamisch skaliert. 

Einen weiteren Mehrwert der interaktiven Visualisierung erkennt man, 
wenn man mit der Maus über einzelne Datenpunkte fährt. Hier geschehen meh- 
rere Dinge. Erstens wird ein Tooltip eingeblendet, in dem das tatsächlich bewer- 
tete Wort dargestellt wird. Das ist insbesondere hinsichtlich der Menge der im 
Schaubild dargestellten Informationen interessant. Man stelle sich eine statische 
Visualisierung vor, in der zu jedem Datenpunkt das Wort annotiert ist (auch 
das ist selbstverständlich in R möglich). Das Schaubild droht dann recht schnell 
unübersichtlich zu werden. Durch das interaktive Element des Tooltips kann die/ 
der Betrachtende selektiv diese Information anfordern. 

Fährt man mit der Maus über einzelne Datenpunkte, werden außerdem senk- 
rechte und horizontale Geraden zu den Achsen gezeichnet und die Werte des 
Punktes auf den Achsen dargestellt. So lässt sich für jeden Punkt der genaue 
Wert ablesen. Alle interaktiven Elemente werden mit einer Übergangsanimation 
dargestellt, was es visuell etwas ansprechender macht. 

Ein zweites Beispiel soll eine Visualisierungsart zeigen, die in diesem Kapi- 
tel zwar schon angesprochen, aber noch nicht anhand eines Beispiels illustriert 
wurde: ein gruppiertes Balkendiagramm. Wir bedienen uns dazu des Beispielda- 
tensatzes „dative“ aus dem Paket ,languageR“. Dieser Datensatz enthält Infor- 
mationen zu 3263 Realisierungen der englischen „double object*-Konstruktion, 
in der das Phänomen der „dative alternation“ wirkt („John gives Mary a book“ 
vs. „John gives the book to Mary“). Im ersten Fall ist der Rezipient der Geben- 
Handlung, Mary, als eine Nominalphrase (NP) realisiert, im zweiten Fall als eine 
Präpositionalphrase (to Mary, PP). Wir wollen die Verteilung der Fälle in diesem 
Datensatz bezüglich der semantischen Klasse des Verbs visualisieren. Diese ist 
5-stufig codiert: a = abstract („give it some thought“ / „give some thought to it“), 
c = communication („tell me your name“ / „tell your name to me“), f = future 
transfer of possession („promise her some money“ / „promise some money to 
her“), p = prevention of possession („deny him the book“ / „deny the book to 
him“) und t = transfer of possession („give him a ring“ / „give the ring to him“). 
Wir visualisieren also zwei kategoriale Variablen in ihrem Zusammenhang: 
die Realisierung des Rezipienten (NP vs. PP) und die semantische Klasse des 
Verbs (a, c, f, p oder t) und interessieren uns für die Häufigkeit, mit der jede der 
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Kombinationen auftritt. Wir codieren zunàchst die Variable SemanticClass um, 
um die Interpretierbarkeit des Schaubilds zu erleichtern. 


> levels(dative$SemanticClass) <- c("abstract", "communication", 
"future transfer", 
"prevention of transfer", "transfer") 


> table(dative$SemanticClass, dative$RealizationOfRecipient) 


NP PP 
abstract 1176 257 
communication 355 50 
future transfer 47 12 
prevention of transfer 225 3 
transfer 611 527 


Wir kennen nun schon die Häufigkeitsverteilung, die uns interessiert, und wol- 
len diese jetzt mit rCharts interaktiv visualisieren. 


> dative2 <- as.data.frame(table(dative$SemanticClass, 
dative$RealizationOfRecipient) ) 
> names(dative2) <- c("SemanticClass", "RealizationOfRecipient", 
"Freq") 
> pl2 <- nPlot(Freq ~ RealizationOfRecipient, 
group = "SemanticClass", data = dative2, 
type = "multiBarChart") 
> pl2$yAxis(tickFormat = "#! d3.format(',.@f')!#") 
> pl2 


In der ersten Zeile wird zunächst eine Datentabelle (ein „Dataframe“) erstellt, mit 
dem das Paket „rCharts“ umgehen kann. Das ist lediglich eine andere Darstel- 
lungsform der oben abgedruckten Kontingenztabelle. In diesem Dataframe legen 
wir zunächst geeignete Spaltenüberschriften mit der Funktion names() fest, dann 
folgt der eigentliche Plotaufruf, in dem wir die Häufigkeit in Abhängigkeit der 
Realisierung des Rezipienten gruppiert nach der semantischen Klasse abtragen. 
Der Typ des Plots ist in diesem Fall ein multiBarChart. Der Plot wird zunächst 
in der Variable pl2 gespeichert. Im letzten Schritt passen wir das Format der 
y-Achse so an, dass keine Nachkommastellen angezeigt werden, denn diese sind 
bei ganzzahligen Häufigkeiten unnötig und verwirren eher. Mit der letzten Zeile 
wird der Plot schließlich „ausgeführt“. 

Das Ergebnis des Plotaufrufs ist wiederum eine HTML-Datei, die das interak- 
tive Schaubild enthält und unter https://doi.org/10.11588/data/6SO6TG abrufbar 
ist (Datei „pl2.html“). Zunächst ist kein bedeutender Unterschied zu statischen 
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Balkendiagrammen feststellbar. Doch auch hier bieten die interaktiven Elemente 
einen Mehrwert: Wiederum kann man rechts oben in der Farb-Legende einzelne 
Gruppen an- und ausschalten, was gegebenenfalls zu einer Neuskalierung der 
y-Achse führt. Wenn man mit der Maus über einzelne Balken fährt, wird außer- 
dem ein Tooltip angezeigt, der die genaue Anzahl der Fälle sowie die Kategorie 
enthält (bspw. „communication - 355 on NP“). Besonders hervorzuheben ist die 
Möglichkeit, von einem gruppierten auf ein gestapeltes Balkendiagramm umzu- 
schalten. Hierzu muss lediglich oben links „stacked“ statt „grouped“ aktiviert 
werden. In der Visualisierung der „dative alternation“-Daten lässt sich mit einem 
gestapelten Balkendiagramm beispielsweise die Gesamtzahl der Fälle NP vs. PP 
einfacher vergleichen. Ein gruppiertes Balkendiagramm eignet sich dagegen bes- 
ser für den Vergleich einzelner Gruppen. 

Mithilfe des Pakets „rCharts“ können wir noch weitere auf NVD3 basierte 
Grafiken direkt in R erstellen. Hierzu gehören gestapelte Flächendiagramme 
(stackedAreaChart), horizontale Balkendiagramme (multiBarHorizontalChart) 
sowie Tortendiagramme (pieChart) und Liniendiagramme ohne (lineChart) und 
mit einer speziellen Auswahlfunktion (lineWithFocusChart). Außerdem können 
noch andere auf d3 basierte Bibliotheken angesprochen werden (bspw. Poly- 
chart, Morris, xCharts und HighCharts). Einen relativ umfassenden Überblick 
über die Fähigkeiten von „rCharts“ bietet die Projekthomepage* sowie diverse 
web-basierte Tutorials**. 


4. Schluss 


Wir haben einen kleinen Ausschnitt der Visualisierungsméglichkeiten gezeigt, 
die R bietet — sowohl mit explorativer als auch mit explanatorischer Ausrich- 
tung. Unseren Visualisierungen lagen statistische Berechnungen zugrunde, die 
mit einer unterschiedlichen Anzahl und Art von Variablen arbeiteten. Uberlegt 
man sich bereits im Vorfeld der Grafikerstellung, wie viele und welche Variab- 
len visualisiert werden sollen, fallt die Wahl einer geeigneten Visualisierungsart 
meist deutlich einfacher. 

Mit der Basisausstattung von R stehen den Benutzer/innen schon viele Visu- 
alisierungsmöglichkeiten zur Verfügung. Für Spezialaufgaben sind bestimmte 
Pakete jedoch besser geeignet, da sie der Benutzerin/dem Benutzer unter Umstän- 
den eine Menge Kodierungs- oder Programmierarbeit abnehmen. Wir konnten 


33 http://ramnathv.github.io/rCharts (letzter Zugriff am 19. Mai 2016). 

34 Unter http://www.rpubs.com/dnchari/rcharts (letzter Zugriff am 20. Mai 2016) ist 
eine Sammlung von Programmcode für einige Schaubilder verfügbar, die mit rCharts 
erstellt werden können. 
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hier nur einen kleinen Ausschnitt der verfügbaren Pakete vorstellen, haben aber 
versucht, eine Auswahl zu treffen, die in vielen Bereichen der linguistischen For- 
schung relevant sein können. Dabei ist die Visualisierung kategorialer Daten 
besonders interessant (Paket „vcd“). Aber auch die Möglichkeit, mit statistischen 
Modellen gewonnene Schätzer auf einfache Weise zu extrahieren und ohne 
Mehraufwand zu visualisieren, ist äußerst relevant - spätestens in Veröffent- 
lichungen, in denen die Ergebnisse der statistischen Modelle und nicht einfach 
die Rohwerte dargestellt werden sollen (Paket „effects“). Zuletzt haben wir zwei 
Pakete vorgestellt, die als komplette Umgebungen für die Erstellung von Grafi- 
ken gesehen werden können und somit das Portfolio von R als mächtiges Visua- 
lisierungswerkzeug erweitern. Das Paket „ggplot2“ tritt dabei mit dem Anspruch 
an, eine „Grammar of Graphics“ zu implementieren. Das noch in der Entwick- 
lung befindliche Paket „rCharts“ schließt die Lücke zur JavaScript-Bibliothek d3 
und verknüpft R somit mit einer anderen mächtigen Visualisierungsumgebung. 
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Jan Oliver Rüdiger 


CorpusExplorer v2.0 - Visualisierung 
prozessorientiert gestalten 


Abstract Der CorpusExplorer v2.o ist eine frei verfügbare Software zur korpus- 
hermeneutischen Analyse und bietet über 45 unterschiedliche Analysen/Visua- 
lisierungen für eigenes Korpusmaterial an. Dieser Praxisbericht gibt Einblicke, 
zeigt Fallstricke auf und bietet Lösungen an, um die tägliche Visualisierungs- 
arbeit zu erleichtern. Zunächst wird ein kurzer Einblick in die Ideen gegeben, 
die zur Entwicklung des CorpusExplorers’ führten, einer korpuslinguistischen 
Software, die nicht nur vielfältige Forschungsansätze unterstützt, sondern auch 
mit einem Fokus auf die universitäre Lehre entwickelt wird. Der Mittelteil 
behandelt einen der vielen Fallstricke, die im Entwicklungsprozess auftraten: 
Effizienz-/Anpassungsprobleme - bzw.: Was passiert, wenn Visualisierungen 
an neue Begebenheiten angepasst werden müssen? Da diese Lösung Teil des 
CorpusExplorers v2.o ist, wird abschließend darauf eingegangen, wie unter- 
schiedliche Visualisierungen zu denselben Datensätzen sich auf die Rezeption/ 
Interpretation von Daten auswirken. 


1. Von der Idee zur Anwendung 


Die eigentliche Idee zur Entwicklung des CorpusExplorers entstand während 
meiner Magisterarbeit 2013. Zunächst wurden Mitarbeiter/innen und Dokto- 
rand/innen des Instituts für Germanistik an der Universität Kassel befragt, ob/wie 
sie korpuslinguistisch arbeiten, welche Tools eingesetzt werden und wie aktuelle 
Lösungen in konkreten Projekten aussehen. Fast alle nutzten korpuslinguistische 
Tools, mal mehr, mal weniger intensiv. Überraschend war die Vielzahl an Soft- 
waretools, die in der Forschung kursieren. Auf Basis dieser Befragung wurden 
mehrere Workflows entwickelt, um die folgende Frage beantworten zu können: 
„Was muss erledigt werden, um vom einfachen Text zu einem visuellen Endergebnis 
zu gelangen?“ Die einzelnen Arbeitsschritte lassen sich durch verschiedene Soft- 
waretools erledigen. Das Endergebnis ist ein sogenannter „Toolchain“- also eine 


1 Der CorpusExplorer kann über http://corpusexplorer.de kostenfrei bezogen werden. 
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Kette von Softwaretools, die in einer bestimmten Reihenfolge genutzt werden, 


um den Workflow vollständig abzudecken. Ein Workflow-Beispiel: Rohtexte 


bereinigen, annotieren, Frequenzen auszählen und abschließend als Grafik dar- 


stellen. Der exemplarische Toolchain könnte wie folgt aussehen: Texte werden 


mit JEdit (per Hand) bereinigt, danach mit dem TreeTagger annotiert, Frequen- 


zen werden mit AntConc ausgezählt; für die Umsetzung als Diagramm wird 


schließlich Microsoft Excel verwendet’. Dieser Toolchain ist nur einer von vielen 


denkbaren Möglichkeiten, manche mögen kürzer, einfacher, detaillierter oder 


komplexer sein. Für alle ergeben sich aber ähnliche Probleme: 


2 


— Für alle Programme müssen Lizenzen erworben werden, insofern diese 


nicht kostenfrei verfügbar sind. Der Kostenfaktor spielt besonders dann 
eine Rolle, wenn die Software z. B. in einer Seminargruppe eingesetzt wer- 
den soll. Der oben aufgezeigte Toolchain ist in der Regel mit geringen Kos- 
ten realisierbar, da die Programme JEdit, TreeTagger und AntConc kosten- 
frei sind und Excel auf vielen Rechnern vorinstalliert/vorlizenziert ist. Ganz 
anders gestaltet sich aber der Fall, wenn z. B. Produkte wie MAXQDA, SPSS 
oder Tableau zum Einsatz kommen sollen - hier können schnell mehrere 
Hundert/Tausend Euro an Lizenzkosten fällig werden. Das Ausweichen 
auf kostenfreie Open-Source Lösungen ist erstrebenswert, erfordert aber 
eine sachkundige Auswahl und kann zur Verstärkung der in den folgenden 
Punkten aufgelisteten Problemen führen. 


— Die Programme müssen untereinander kompatibel sein. Die Ausgabe des 


einen Programms ist wiederum die Eingabe des anderen. Wie die Umfrage 
ergab, ist dies eine häufig wahrgenommene Fehler-/Problemquelle. Oft 
wird diese durch selbstentwickelte/selbsterdachte Lösungen beseitigt. Diese 
Lösungen sind jedoch fragil, da z. B. im Falle der Aktualisierung eines der 
beiden Programme die individuelle Anpassung neu konfiguriert werden 
muss. Daher kann es notwendig sein, dass man in einer Projektgruppe / 
während einer Projektphase - genau überlegt, welche Programmversionen 
zum Einsatz kommen, dies abspricht und ggf. ältere Installationspakete 
bereithält, um ggf. auf die ältere Programmversion zurückwechseln zu kön- 
nen, wenn das Update Probleme bereitet. Im Idealfall wird der Toolchain in 
regelmäßigen Abständen vollständig auf einem Rechner getestet und erst 
dann auf alle Rechner des Projektteams/der Seminargruppe übertragen. 


Auf die einzelnen Tools wird im Folgenden nicht weiter eingegangen. Die Bezugs- 
quellen lauten: JEdit: http://bit.ly/1TOp23W TreeTagger: http://bit.ly/ıbsE7eE Ant- 
Conc: http://bit.ly/ıVrkiQY Microsoft Excel: http://bit.ly/1sXVQM4 MAXQDA: http:// 
bit.ly/2qJibbT SPSS: https://ibm.co/2rK6hm] Tableau: http://tabsoft.co/arbifCF . 
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— Die Anzahl der benötigten Softwareprogramme wird schnell zweistellig. 
Wie bei einer Kette so gilt auch für den Toolchain - das Endresultat ist nur 
so stark wie das schwächste Glied. Wird z. B. eine Software nicht mehr wei- 
terentwickelt, muss ggf. der gesamte Toolchain umstrukturiert werden. Die- 
ses Problem betrifft sowohl kommerzielle als auch Open-Source-Software. 
Kleinere/Kurzfristige Projekte können dieses Problem vernachlässigen, 
größere/mehrjährige Projekte sind gut beraten, alle Softwareprodukte im 
Toolchain auf Ausfallmöglichkeiten zu überprüfen (z. B. keine Open-Source 
Software zu nutzen, die bereits bei Projektbeginn seit mehr als einem Jahr 
nicht mehr aktiv entwickelt wird), abzusichern (z. B. eine Kopie des Quell- 
codes anzulegen) oder Alternativen bereitzuhalten. 

— Durch die große Anzahl an Software wird es zudem schwerer, dieses Wis- 
sen in die Lehre zu übertragen. Für jede zusätzliche Software müssen extra 
Handreichungen für die Studentinnen und Studenten geschrieben werden. 
Alle Programme müssen auf den Rechnern in der gleichen Version vor- 
liegen. Unterschiedliche Programmversionen führen gelegentlich zu ganz 
anderen Ergebnissen (siehe oben - Updateproblem). Dozentinnen und 
Dozenten müssen zudem für eine Vielzahl an Programmen Hilfestellungen 
leisten können. 


Diese Problemfelder, gerade auch was den Einsatz in der universitären Lehre 
anbelangt, lassen sich z. B. auch bei Bubenhofer (2011), Dipper (2011) und Zins- 
meister (2011) wiederfinden. Daher ist davon auszugehen, dass diese Probleme 
nicht spezifische Probleme der Umfrageteilnehmer/innen sind, sondern einen 
weit größeren Nutzerkreis betreffen. Darauf aufbauend wurde eine Lösung, 
der CorpusExplorer, entwickelt. Der CorpusExplorer nutzt ausschließlich freie 
Software (Freeware/Open Source) - Installation und Konfiguration erfolgen 
vollautomatisch. Die Softwareauswahl, auf die der CorpusExplorer v2.o zurück- 
greift, erfolgt nach den oben angegebenen Kriterien, d. h. Nutzung von Open- 
Source-Software (die aktiv weiterentwickelt wird), Toolchain-Test, bevor die 
Software verteilt wird und es stehen mehrere alternative Möglichkeiten bereit 
(z. B. existiert noch eine ganze Reihe alternativer Tagger, wenn einer der Tag- 
ger nicht mehr weiterentwickelt werden sollte. Dies erlaubt es zusätzlich, auch 
auf individuelle Nutzerpräferenzen einzugehen). Damit sind die Lizenz-, Konfi- 
gurations- und Kompatibilitätsprobleme aus Nutzersicht weitestgehend gelöst 
und die Forderung Zinsmeisters (2011, 72), dass „[für] den Einsatz in der Lehre 
‚Download and Run’-Ressourcen, bei denen die Ressource als nutzungsfähiges 
Gesamtpaket bezogen werden kann [...] vorzuziehen“ sind, ist erfüllt. 

Der CorpusExplorer bietet einen denkbar einfachen Toolchain, da er alle 
automatisierbaren Aufgaben mittels einer intuitiven Programmoberfläche löst: 
Programm starten, Korpus importieren und über 45 Visualisierungen nutzen. 
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Aufbereitung, Bereinigung, Chunking, Annotation, Abtrennen von Metadaten 
uvm. werden im Importprozess vollautomatisch durchgeführt. Dadurch wird 
es möglich, ein weiteres Problem zu lösen, den Einsatz in der Lehre - ein Pro- 
gramm, eine Erklärung - Dozentinnen und Dozenten können sich wieder auf die 
Linguistik fokussieren. 


2. Plädoyer für dreistufige Visualisierungsprozesse 


Visualisierungen sind meist das Sahnehäubchen einer wissenschaftlichen Pub- 
likation. Sie schmücken ein Paper aus oder fassen die detaillierten Ergebnisse 
optisch klar und verständlich auf einem Poster zusammen. Manchmal sind sie 
auch selbst Gegenstand der Forschung, dann geht es um Fragen der Ästhetik 
oder Wahrnehmung. Diese Aspekte der Informationsvisualisierung werden aber 
im Folgenden bewusst ausgeklammert, zum einen, weil sie im Gesamtkontext 
des Tagungsbandes mehrfach diskutiert werden, und zum anderen, weil dies 
den Artikelumfang sprengen würde. Diese Diskussion soll daher um einen völ- 
lig neuen Aspekt erweitert werden: Die Effizienz des Visualisierungsprozesses. 
Konkret bedeutet dies, Abläufe zu schaffen, die die Visualisierung erleichtern, 
da sie prozessorientiert entweder unterschiedliche Daten gleichartig aufberei- 
ten, um so identische Visualisierungen zu befüllen, oder für gleichförmige Daten 
eine Vielzahl an Visualisierungen bereitstellen. 

Der einfachste denkbare Ablauf ist ein zweistufiger Prozess. Damit es im 
späteren Verlauf zu keiner Verwirrung kommt, benenne ich beide Prozess- 
schritte gleich so, wie sie später benötigt werden. Die beiden Prozesskompo- 
nenten lauten: „View“ und „Model®. Dabei stellt das Model die eigentlichen 
Daten bereit. Das Model kann z. B. eine einfache CSV-Tabelle sein, die die 
Daten in strukturierter Weise enthält, oder ein Korpus, das ausgewertet wird. 
Die View ist die Visualisierung. In dieser simplen Form greift die View direkt 
auf das Model zu. Dieser zweistufige Prozess ist zweifelsfrei der einfachste und 
schnellste Weg, Daten in eine visuelle Form zu pressen. Der wesentliche Nach- 
teil dieser Lösung ist die geringe Nachhaltigkeit. Alle Abfragen, Aggregationen 
und Funktionen wie Sortieren, Filtern oder Gruppieren werden der einen oder 
anderen Seite zugeschlagen. Verändern sich die Daten im Model strukturell, 
muss die View zwingend angepasst werden. Umgekehrt verhält es sich ähnlich 
— View und Model sind direkt miteinander verwoben. Dadurch können beide 
nur mit hohem Aufwand gegeneinander ausgetauscht werden. Doch dies ist 
wichtig, wenn gleichartige Visualisierungen auf unterschiedliche Daten oder 


3 Beide Begriffe rekurrieren auf die Disziplin, aus der sie stammen, die Softwaretech- 
nik. Für eine Einführung sei insbesondere Eilebrecht und Starke (2013) empfohlen. 
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unterschiedliche Visualisierungen auf gleiche Daten angewendet werden sol- 
len. Dieses Problem hatte die erste Version des CorpusExplorers. Daher erfolgt 
das Plàdoyer für einen mehrstufigen Visualisierungsprozess nicht aus einer 
Laune heraus, sondern basiert auf der Erkenntnis, der eine schmerzliche Erfah- 
rung zugrunde liegt. 

Der wesentliche Anderungsschritt ist das Hinzufügen einer zusàtzlichen 
Zwischenebene. Softwaretechnisch könnte man darüber streiten, ob diese als 
„Controller“, „Presenter“ oder „ViewModel“ usw. bezeichnet wird‘. Essenziell 
muss man aber nur begreifen, dass eine zusätzliche Ebene einige erhebliche 
Vorteile mit sich bringt. Wie bereits ausgeführt, ist bei einem zweistufigen 
Prozess nicht immer klar, wo und wie die eigentlichen Abfragen zu realisie- 
ren sind. Erst Abfragen machen aus den Daten eine visualisierbare Menge. 
In einem dreistufigen Prozess lässt sich diese Frage jedoch wesentlich klarer 
beantworten. Das Model stellt ausschließlich die reinen Rohdaten bereit, die 
View sorgt ausschließlich für die Darstellung, alles andere wird in die Zwi- 
schenebene verlagert. Dadurch wird es möglich, aus unterschiedlichen Models 
Daten zu beziehen, diese zu verbinden und in neuer, aggregierter Form an die 
View weiterzureichen. 

Bei der Entwicklung des CorpusExplorer fiel letztlich die Entscheidung auf 
das sogenannte „MVVM“-Entwurfsmuster? („Model, View, ViewModel“). Über- 
raschenderweise konnte ich bisher keine konkreten Aussagen in der Litera- 
tur finden, die sich mit Effizienzgewinnen einer derartigen Umstrukturierung 
befassen. Daher habe ich versucht, eine Abschätzung auf Basis der Historie des 
CorpusExplorers zu entwickeln. Zum jetzigen Zeitpunkt verfügt der CorpusEx- 
plorer über exakt 47 Visualisierungen. Ein zweistufiger Prozess würde bedeu- 
ten, dass 47-mal alles neu implementiert werden müsste. Durch die Umstellung 
auf den dreistufigen Prozess benötigt der CorpusExplorer jedoch nur 29 Views, 
um denselben Funktionsumfang abzudecken. Daher konnte allein durch diese 
simple Umstrukturierung 39,3% des anfallenden Programmieraufwands vermie- 
den werden. 


4 Konzeptionell gibt es zwischen diesen Zwischenschichtarten marginale Unterschiede. 
Diese hier zu diskutieren würde jedoch den Rahmen des Artikels sprengen. 

5 Eine genau Definition des MVVM-Entwurfsmusters sowie eine Beispielimplementie- 
rung in C# findet sich bei Wegener und Schwichtenberg (2012, 583-609). 
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3. Identische Daten - Unterschiedliche Visualisierung 


Kurz vorab: Für alle Beispiele wurde ein Korpus (1,28 Mio. Token) aus 2113 zufäl- 
lig ausgewählten deutschsprachigen Zeitungsartikeln der Jahre 2010 bis 2015 zu 
den Stichworten Frauenquote/Quotenfrau verwendet. Alle Beispiele visualisieren 
das Resultat einer Kookkurrenz-Analyse. „Statistisch signifikante Kookkurren- 
zen sind Wortverbindungen, die überzufällig oft in einer bestimmten Datenbasis 
auftreten“ so Lemnitzer und Zinsmeister (2006, 147). Die erste und einfachste 
Form für die meisten Auswertungen ist die Darstellung in einer Tabelle. Im Cor- 
pusExplorer erlaubt die Tabellen-Ansicht das Sortieren, Filtern und Gruppieren 
der Daten. Abb. ı zeigt die Tabellen-Ausgabe der Kookkurrenzanalyse. 

Auch wenn Tabellen einen geringen visuell-ästhetischen Wert haben und 
keine Informationen raffen - im Vergleich zu anderen Visualisierungsformen 
haben sie jedoch einen eigenen Stellenwert im Visualisierungsprozess verdient. 
Tabellen sind der Überblick auf die Datengesamtheit. Durch Interaktivität kön- 
nen sie zudem sehr schnell zum gewünschten Analyseziel führen. Im Gegensatz 
zu anderen Programmen ermittelt der CorpusExplorer die Kookkurrenzen aller 
Token. Für die Signifikanz kann zwischen Poisson-Verteilung (Programmstan- 
dard), Chi-Quadrat-Test und Log-Likelihood gewählt werden. Nicht signifikante 


CorpusExplorer - o x 
j — 
[=] 
@ #82 
k.i Einstellung / Übersicht TZIVisualisierung der Daten ändern ~ 
Z mui = = 
Eá Eh & gB 
Zeichenkette Kookkurrenz Frequenz Signifikanz * 
' 
Beinhaltet: Y Maßgeschneidert Funktion: Y Ist gleich: Y Istgleich 
25884 25896 425407 201509,926434164 
® Kristina Schröder 125 46,1699501348674 
© e gibt 386 42,5883136392604 
© allem vor 201 42,2177389896901 
© 40 Prozent 228 40,5495038550501 
© Horst Seehofer 107 32,0694616530523 
© Beruf Familie 97 31,7572063184602 
© Angela Merkel 71 29,4705934846627 


Abb. 1 Kookkurrenz-Tabelle im CorpusExplorer. 
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Abb. 2 N-Gramme mit Signifikanzwerten. 


Kookkurrenzen werden automatisch gefiltert. Nutzerinnen und Nutzer können 
so entweder nach den signifikantesten Kookkurrenzpartnern suchen oder mit- 
hilfe der Filterfunktion Kookkurrenzen definierter Begriffe herausgreifen. Mit 
einer geringen Anpassung konnte aus dieser Auswertung eine weitere, weitaus 
differenziertere Darstellung entwickelt werden. 

Abb. 2 zeigt eine weitere Tabelle. Die Idee entstammt dem Versuch, die Kook- 
kurrenzanalyse aus COSMAS II° mit möglichst einfachen Mittel nachzubauen. 
Um diese Visualisierung zu realisieren, wurden zwei bereits vorhandene Auswer- 
tungen kombiniert. Hier spielt das MVVM-Konzept eine seiner größten Stärken 
aus, da bereits existierende Datenquellen leicht miteinander verknüpft werden 
können. Auf die Auswertung von N-Grammen’ folgt eine Kookkurrenz-Analyse, 
diese bewertet, wie signifikant die Verbindungen einzelner Token innerhalb des 


6 Online abrufbar über: http://www.ids-mannheim.de/cosmas2/ 

7 N-Gramme sind in der Zusammenfassung von Bubenhofer (2009, 118) wie folgt erklärt: 
„Das n steht für eine beliebige Zahl > o; die Bezeichnung leitet sich von den Namen 
für Ein-, Zwei- oder Dreiwortausdrücke, ‚Unigramme‘, ‚Bigramme‘, ‚Trigramme‘, ab. 
Normalerweise werden n-Gramme nur als eine Reihe von direkt aufeinander folgen- 
den Wörtern verstanden“ 
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| Begriff (gran): Frauen Begriff (rot): Manner @ A 


Kookkurrenz Polarisation = 


sitzen -0,00379214117438905 


Positionen -0,00229268517409837 
Chancen -0,00140430594955774 
glauben 0,00108571749126908 
unterschätzen 0,00154808264019658 
oft 0,00221847466559063 
Hinderlich 0,00351804870631756 
hundertprozentig 0,00351804870631756 
weniger 0,00833973460805265 


verdienen 0,0144090681730031 


Abb. 3 Kontrastierte Kookkurrenzen. Grün = Frauen / Rot = Manner 


N-Gramms sind. Je nach Signifikanzklasse erfolgt dann die Kolorierung. Blau 
steht für überdurchschnittlich signifikant, Schwarz für normal signifikant, Grau 
- unterer Grenzbereich der Signifikanz. Graue Auslassungszeichen stehen für 
nicht signifikante Token. 

Abb. 3 zeigt die Kookkurrenzen zu lediglich zwei gewählten Begriffen, die 
gegeneinander kontrastiert werden. 

Der erste Begriff (grün) lautet ‚Frauen‘, der zweite (rot) ‚Männer‘. Diesmal 
werden jedoch anstelle der Gesamttabelle nur die zwei gewählten Begriffe in der 
View angezeigt. Dabei geht es um individuelle und überlappende Kookkurren- 
zen. Die Signifikanzwerte werden auf eine normierte Skala umgerechnet - die 
Normierung erfolgt im ViewModel. Alle Kookkurrenzen mit dem Wert gleich -ı 
gehören ausschließlich zum grünen Begriff - also ‚Frauen‘ - und sind folglich 
grün eingefärbt. Alle Begriffe mit dem Wert gleich +1 sind ebenso ausschließli- 
che Kookkurrenzen zu ‚Männer‘. Neben den ausschließlichen und damit indivi- 
duellen Kookkurrenzen sind diejenigen besonders interessant, die zwischen die- 
sen beiden Werten liegen — also im Wertbereich von -ı bis +1. Diese Begriffe sind 
signifikant zu beiden Begriffen. Durch das Vorzeichen ist die Tendenz zu einem 
der beiden Begriffe - man könnte auch sagen Pole - schnell identifizierbar. 
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Abb. 4 Kookkurrenz-Wolke zu ‚Mann’ und ‚Frau‘, visualisiert mit TagPies. 


Jenseits von Tabellen bieten sich für Kookkurrenzanalysen natürlich noch 
weitere Darstellungsmöglichkeiten an. Abb. 4 zeigt die Visualisierung mittels 
TagPies, entwickelt von Jänicke et. al (2015), integriert über die HTML5-Schnitt- 
stelle des CorpusExplorers. 

Die Datengrundlage ist absolut identisch mit der zuvor gezeigten Kookkur- 
renz-Kontrastierung. Die Möglichkeiten, die View/Visualisierung, sind aber um 
einiges umfangreicher, da diese auch mehrere ‚Pole‘ unterstützt, d. h. mehr als 
zwei Begriffe gegeneinander kontrastiert werden können. Sehr spannend ist 
an dieser Visualisierung auch die gegebene Interaktivität. Begriffe lassen sich 
anwählen und dadurch den einzelnen Polen zuordnen. Im Beispiel: ‚gleichbe- 
rechtigt‘ tendiert eher zu ,Mann‘ (6) als zu ‚Frau‘ (4). 

Was wäre ein Artikel über Visualisierung in der Linguistik ohne Baumgra- 
phen? - Abb. 5 zeigt einen solchen. 

Die Abfrage ist identisch mit den vorherigen, Model und ViewModel konn- 
ten erneut eins zu eins wiederverwendet werden. Es erfolgt die Eingabe eines 
Begriffs, dann der Klick auf die Schaltfläche „Kookkurrenzen“ und schon wird 
ein Baumgraph erstellt. Begriffe werden als farbige Knoten gezeichnet, die Kan- 
ten stellen die Relation (wer mit wem) her und geben Auskunft (siehe Werte) 
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Abb. 5 Ausschnitt Kookkurrenz-Baum zu ‚Frau‘. 


über die Signifikanz der Verknüpfung. Würden weitere Begriffe wie z. B. ‚Kreis- 
tag eingegeben, bekäme der Baum eine zusätzliche Tiefe - neue Begriffe werden 
mit existierenden verknüpft. Über die zusätzlichen Schaltflächen lässt sich der 
Graph layouten und einzelne Knoten/Kanten können zur besseren Darstellung 
entfernt werden (View-Funktionen). Zu den Begriffen lassen sich noch weitere 
Ressourcen einblenden wie etwa Metadaten zu den Dokumenten, so können 
z. B. Autoren oder Verlage als Knoten eingebunden und automatisch mit den 
Begriffen/Kookkurrenzen verknüpft werden. Auf diese Weise lässt sich in dieser 
Visualisierung mehr zeigen als ein bloßer Kookkurrenzgraph. Vielmehr erlaubt 
es Autoren-/Verlagstypiken auf der Mehrwortebene zu analysieren. 


4. Fazit 


Abschließend möchte ich zuerst festhalten: Der CorpusExplorer stellt keinesfalls 
eine Ultima Ratio für die Korpuslinguistik dar. Vielmehr geht es um einen kri- 
tikfähigen Beitrag, der einladen soll, über technische, theoretische und methodi- 
sche Fragestellungen zu diskutieren. Wie gezeigt werden konnte, macht es Sinn, 
über Effizienz und Flexibilität im Visualisierungsprozess nachzudenken. Fast die 
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Hälfte an Ressourcen, hauptsächlich Zeit, konnte durch den dreistufigen Ansatz 
eingespart werden. Die gezeigten Visualisierungen machen außerdem recht 
deutlich, wie vielfältig sich die Ergebnisse ein und derselben Methode (Kook- 
kurrenz-Analyse) darstellen lassen. Durch Verknüpfungen mit anderen Daten, 
auch innerhalb desselben Datensatzes - sowie durch Perspektivwechsel (zeige 
nur einige wenige, dafür aber spezifische Ergebnisse oder zeige das große Ganze) 
können Bedeutungsrelationen erzeugt werden, die die Datenrezeption beein- 
flussen. Aus meiner eigenen Seminarerfahrung heraus kann ich berichten, dass 
der Einsatz des CorpusExplorers nicht nur Freude in der Anwendung bereitet, 
sondern auch teilweise überraschende Ergebnisse in einem ansonsten unüber- 
sehbaren Berg aus Textmaterial zu Tage fördert. Anfangs herrscht Skepsis darü- 
ber, welchen Mehrwert solche Programme liefern können. Aus der Skepsis wird 
schnell Überraschung darüber, wie simpel doch manche Methoden sind und wie 
einfach es ist, diese Auswertungen selbst zu produzieren. Dies genügt meist, um 
Eifer zu entfachen hinter die Dinge sehen zu wollen - Belegstellen zu erkunden 
und Abfragen in immer komplexerem Maße zu kombinieren. Am Ende eines 
Seminars mit dem CorpusExplorer stehen motivierte Studierende, verwundert 
darüber, selbst empirische Forschung betrieben zu haben. 
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Alexander Hinneburg / Christian Oberländer 


Getting the Story from Big Data: 
Interaktive visuelle Inhaltsanalyse für 
die Sozialwissenschaften mit dem Topic- 
Explorer am Beispiel Fukushima 


Abstract Immer mehr Menschen wollen öffentlich gehört werden und ihre 
Meinung einem breiten Publikum mitteilen. Dieser Trend lässt sich u. a. an 
der steigenden Beteiligung an sozialen Netzwerken (SNS) ablesen, auf denen 
folglich große Textmengen in digitaler Form entstehen. Sozialwissenschaft- 
ler/innen sind an den Inhalten und Prozessen gesellschaftlicher Interaktion 
und Meinungsbildung interessiert. Diese auf den SNS entstehenden riesigen 
Datenmengen (Big Data) in Textform können sie mit herkömmlichen Metho- 
den jedoch bisher kaum auswerten. Als Lösung bieten sich Topic Models an. 
Sie werden in der Informatik schon länger angewendet und ermöglichen die 
explorierende Analyse großer Textsammlungen, die persönliche Äußerungen 
enthalten, indem sie eine Analyse nach häufig verwendeten Themen (topics) 
ermöglichen. Um Sozialwissenschaftlern Zugang zu diesen neuen Forschungs- 
möglichkeiten zu eröffnen, wurde in Zusammenarbeit von Informatik und 
Japanologie das Werkzeug TopicExplorer entwickelt. Als Pilotprojekt wurde 
ein Japan- und sozialwissenschaftlich aktuelles Thema gewählt, nämlich ein 
Ausschnitt aus der japanischen Internet-Debatte über die Atomkatastrophe 
von Fukushima und ihre Folgen. Anhand japanischer Blogs über radioaktiv 
verseuchtes Rindfleisch infolge der Atomkatastrophe von Fukushima im Jahr 
2011 wurde demonstriert, wie mit dem TopicExplorer die Wahrnehmung eines 
gesellschaftlichen Ereignisses im Internet widergespiegelt, sinnvoll struktu- 
riert und für eine vertiefte Analyse aufbereitet werden kann. 


1. Topic Models für die Sozialwissenschaften 


Das Kernproblem bei der Analyse großer Textmengen mit vielen Autoren ist, 
dass diese Texte zwar aufgrund ihrer Vielfalt interessant für Geistes- und Sozi- 
alwissenschaftler sind, aber ihre vollumfängliche Verarbeitung durch Menschen 
nicht durchführbar ist, weil diese zu zeitaufwendig bzw. nicht zumutbar wäre. 


Erschienen in: Noah Bubenhofer u. Marc Kupietz (Hrsg.): Visualisierung 
sprachlicher Daten. Heidelberg: Heidelberg University Publishing, 2018 
DOI: https://doi.org/10.17885/heiup.345.474 
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Außerdem wäre das Durcharbeiten aller persönlichen Äußerungen uninteres- 
sant, weil viele von ihnen entweder sich nur graduell vom Mainstream unter- 
scheiden oder, im anderen Extrem, abstruse Meinungen vertreten. Dagegen 
macht explorierendes Text-Mining mit probabilistischen Topic Models große 
Textmassen spannend für Geistes- und Sozialwissenschaftler, weil mit diesen 
Methoden ohne manuelle Vorverarbeitung und Annotation, allein durch die 
Analyse der Wortverteilungen in den Dokumenten eine gegebene Textsamm- 
lung verdichtet und zu oft unerwarteten Themen strukturiert werden kann (Blei 
2012). Die ermittelten Themen bieten Geistes- und Sozialwissenschaftlern einen 
fokussierten Zugang zu den informationshaltigen und somit tatsächlich interes- 
santen Texten, die zwischen Mainstream und absurden Einzelpositionen verortet 
sind. Erst mit der Hilfe von Topic Models können sie sich also ein differenzier- 
tes Bild von den Inhalten großer Textsammlungen machen (Evangelopoulos und 
Visinescu 2012). 

Trotz des großen Potenzials von Topic Models besteht eine signifikante 
Lücke bei ihrer Anwendung. Fernando Pereira, Forschungsdirektor von Google, 
stellt fest: “While they [topic models] are intriguing, we haven’t yet gotten to 
the point that we can say, ‘Yes, this is a practical tool.” (Anthes 2010). Diese 
Lücke entsteht dadurch, dass Informatik-Instrumente fehlen, die den Transfer 
von probabilistischen Aussagen über Wortverteilungen in Dokumenten hin zu 
inhaltlichen Argumenten - in unserem Hallenser Projekt in geistes- und sozial- 
wissenschaftlichen Kontexten - erlauben (Chang et al. 2009). Denn Topic Models 
berechnen die latenten Themen nicht nach semantischen Gesichtspunkten, son- 
dern folgen allein informationstheoretischen Kriterien. Es bedarf also geeigneter 
Auswertungswerkzeuge, die dem Anwender helfen, inhaltliche Informationen 
und Schlussfolgerungen aus den Berechnungsergebnissen der Topic Models zu 
ziehen (Blei 2012). Dies wurde auch im Positionspapier (Ramage et al. 2009) des 
Mimir Projects bestätigt, in dem zwei Barrieren charakterisiert wurden, die in 
der Zusammenarbeit zwischen Informatikern und Sozialwissenschaftlern bei der 
Anwendung von Topic Models häufig auftraten: (a) technische Zugänglichkeit 
der Ergebnisse des Themenmodells für Sozialwissenschaftler und (b) Vertrauen 
der Sozialwissenschaftler in die Ergebnisse des Themenmodells. 

Bei der Entwicklung von Auswertungswerkzeugen für Sozialwissenschaft- 
ler muss beachtet werden, dass die Anwender normalerweise über kein Hin- 
tergrundwissen zu Text-Mining und probabilistischen Modellen verfügen. Das 
heißt, die Anwender benötigen Auswertungswerkzeuge, um sich ohne detail- 
lierte Kenntnisse der zugrunde liegenden mathematischen Theorie aus den 
Ausgangsdaten (der Dokumentensammlung) und einem daraus berechneten 
Themenmodell eine Plausibilitätsstruktur zur Interpretation der Themen und 
somit zum Verständnis des Inhaltes der Dokumentensammlung zu erschließen. 
Dabei dürfen ihnen auch keine falschen Schlüsse suggeriert werden. Deshalb 
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ist ein weiterer wichtiger Punkt, dass die Anwender/innen über die inhaltliche 
Auswertung hinaus auch bei der kritischen Überprüfung ihrer Interpretationen 
durch das Werkzeug unterstützt werden. Beispielsweise hat sich die Möglichkeit, 
die berechneten Themen zu den relevanten Originaldokumenten zurückzuver- 
folgen, als besonders hilfreich für die Anwender herausgestellt, denn dies gibt 
ihnen die Möglichkeit, sowohl ihre inhaltliche Interpretation der probabilistisch 
berechneten Themen zu überprüfen als auch aussagekräftige Textstellen aufzu- 
finden und gezielt für ihre wissenschaftliche Argumentation zu nutzen. 

Die Interaktivität des Auswertungsprozesses stellt dabei hohe Anforde- 
rungen an die Effizienz der zu entwickelnden Software-Komponenten. Neben 
inhaltlichen bestehen also auch hohe technische Anforderungen. Da sowohl 
die Dokumentsammlungen als auch die daraus berechneten Topic Models sehr 
große Datenmengen umfassen, müssen außerdem effiziente Such- und Auswer- 
tungsalgorithmen entwickelt werden. Diese Algorithmen sollen mit effektiven 
Visualisierungstechniken für Topic Models (Gohr et al. 2010, Hinneburg et al. 
2012, Gohr et al. 2013) zu interaktiven, Web-basierten Benutzeroberflächen ver- 
knüpft werden. 


2. Der TopicExplorer 
2.1 Entwicklung der Analyseplattform 


Das Analysesystem TopicExplorer (http://topicexplorer.informatik.uni-halle. 
de) besteht aus zwei Teilen: der erste Teil ist eine schlanke Software-Plattform, 
die nicht nur die entwickelten Auswertungswerkzeuge trägt, sondern die es 
auch ermöglicht, eine Vielzahl von neuen Funktionalitäten zur Exploration von 
Dokumentensammlungen umzusetzen und in das System zu integrieren, ohne es 
grundsätzlich im Kern verändern zu müssen. Der zweite Teil baut darauf auf und 
bildet das eigentliche TopicExplorer-System, das die speziellen Analysefunktio- 
nen zur Exploration großer Textsammlungen beinhaltet. 

Der TopicExplorer stellt sich für den Anwender als eine interaktiv nutzbare 
Web-Applikation zur Analyse großer Dokumentsammlungen dar. Die Vorverar- 
beitung der Texte, die Themenberechnung sowie das Verknüpfen der berechne- 
ten Themen mit den Dokumenten sind aufwendige Prozesse, die je nach Größe 
der Dokumentsammlung zwischen Stunden und Tagen in Anspruch nehmen. 
Deshalb wurde das TopicExplorer-System in drei Bereiche aufgeteilt: Vorberech- 
nung, Server und Client. Zum Bereich Vorberechnung gehören alle Software- 
Komponenten mit lang laufenden Aufgaben: Wort- und Satzanalyse der Doku- 
mente, die Themenanalyse der aufbereiteten Dokumente, das Verknüpfen der 
berechneten Themen mit den Texten und ihren Meta-Daten. Das Ergebnis der 
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Vorberechnung ist eine Datenbank, die von den Software-Komponenten des Ser- 
vers mit schnell laufenden Anfragen ausgelesen werden kann, um interaktiv den 
Client mit den benötigten Daten zu versorgen. 

Die Nutzung von Software-Entwurfsmustern erlaubt es zu planen, für wel- 
che zukünftige Funktionalität die Software flexibel bleiben soll. Für die Bereiche 
Vorberechnung und Server-Backend wurde das Software-Entwurfsmuster Fil- 
ter Pipelines in Kombination mit dem Kommando-Muster verwendet. So bleibt 
die Software-Architektur flexibel und kann immer wieder neue Verarbeitungs- 
schritte in die Datenaufbereitung und Analyse einzufügen, die während der Ent- 
wicklung auftauchen. Dieses kombinierte Software-Entwurfsmuster wurde zum 
Konzept automatisch konfigurierbarer Workflows weiterentwickelt. Die Soft- 
ware-Module für die Workflows sind in der separaten Bibliothek CommandMa- 
nager ausgelagert, die Open Source (https://github.com/hinneburg/Command- 
Manager) verfügbar ist. 

Als Ergebnis der Nutzung von automatisch konfigurierbaren Workflows 
sind alle Funktionalitäten des TopicExplorer-Systems in kleinen, übersichtlichen 
Modulen, sogenannten Kommandos, implementiert. Die Kommandos wiederum 
werden zu bereichsüberspannenden Plugins gebündelt. Somit können ganze 
inhaltlich zusammenhängende Analysebereiche an- und abgeschaltet werden. So 
können aufwendige Workflows entstehen, die sich inkrementell aus den Abhän- 
gigkeiten der einzelnen Kommandos ergeben. Abbildung ı zeigt als Beispiel den 
automatisch konfigurierten Workflow für den Bereich Vorverarbeitung. 

Die meisten Funktionalitäten sind mithilfe eines Datenbanksystems in der 
Programmiersprache SQL deklarativ programmiert. Ein Vorteil des Datenbank- 
ansatzes ist, dass die Datenstrukturen des probabilistischen Themenmodells 
als relationales Modell durch Tabellen explizit ausgedrückt werden. In zukünf- 
tigen Versionen sollen die rechenintensiven Abschnitte der Vorberechnung in 
SparkSQL (Armbrust et al. 2015) umgesetzt werden. 

Der Client ist als Web-Applikation in JavaScript implementiert. Das Benut- 
zer-Interface des TopicExplorers ist mit einem modularisierbaren Web-Client- 
Programmieransatz auf der Basis von KnockOutJs umgesetzt. Die entwickelte 
Lösung ist flexibel genug, um Javascript-Bibliotheken z. B. für Informationsvisu- 
alisierungen mit D3js, auf einfache Weise einzubinden. 


2.2 Visuelle, interaktive Benutzerschnittstelle 


Das TopicExplorer-System umfasst in der derzeitigen Ausbaustufe folgende 
Funktionen: (1) Themen-Rankings von Dokumenten, (2) Dokumentansichten 
mit Themenzuordnungen der einzelnen Wörter, (3) durchgängige Themenzu- 
ordnungen in allen Ansichten durch Farbe und symbolische Nummerierung, 
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(4) automatische Vervollständigung von Suchwörtern mit thematischer Zuord- 
nung, (5) ähnlichkeitsorientierte lineare Anordnung der Themen, (6) themati- 
sche Wort-Rankings, (7) zeitliche Analyse und Entwicklung von Themen, (8) 
Themendarstellung durch bestimmte Wortarten und TopicFrames, (9) themen- 
basierte Stichwortsuche und (10) interaktives Zusammenfassen und Aufspalten 
von verwandten Themen. 

Basisfunktionen des TopicExplorer-Systems sind Stichwortsuche, Anzeige 
von Dokument-Rankings sowie die Themendarstellung und -navigation. Abbil- 
dung 2 zeigt die Benutzeroberfläche des TopicExplorers am Beispiel einer Doku- 
mentsammlung der 10.000 längsten englischsprachigen Wikipedia-Artikel. Die 
Themen werden als Wortlisten dargestellt. Ähnliche Themen werden benach- 
bart angeordnet - so gehören beispielsweise in Abbildung 2 die vier gelben 
nebeneinander liegenden Themen von links alle in den Bereich Unterhaltung. 
Mittels des horizontalen Sliders kann der Anwender das Spektrum der Themen 
durchsehen, ohne dass inhaltliche Brüche auftreten. Die Farbe kann aus diesem 
Grund als Farbverlauf von links nach rechts den Themen zugeordnet werden. 
Der Farbcode dient dem schnellen approximativen visuellen Referenzieren der 
Themen in den weiteren Ansichten des TopicExplorers. Das Klicken auf den fett 
gedruckten Titel eines Themas öffnet einen Browser-Tab mit einem Dokument- 
Ranking, das wichtige Dokumente des Themas zeigt, z. B. Thema 48 zu Musik im 
mittleren Teil von Abbildung 2. Ein Dokument wird im Browser-Tab als Kasten 
dargestellt, der den Titel, den Textbeginn und mittels farbiger Kreise die vier 
dominanten Themen des Dokuments zeigt. Die farbige Referenz eines solchen 
Kreises kann genauer untersucht werden, wenn man mit der Maus darüberfährt. 
Durch Klicken auf einen Kreis kann das entsprechende Thema nachgeschlagen 
werden; es wird dann in der unteren Themenansicht mittig fokussiert. 

Durch Klicken auf den Titel eines Dokumentes, z. B. auf „Queen (Band)* in 
Abbildung 2, wird ein neuer Tab mit einer Dokument-Ansicht geöffnet (Abbil- 
dung 3), der den Inhalt des Dokuments zeigt, wobei die Wörter durch farbige 
Unterstreichungen die Themenzuordnungen anzeigen, die bei der automati- 
schen Themenanalyse ermittelt wurden. Somit kann das Ergebnis der Themen- 
analyse direkt an den Dokumentinhalten verifiziert werden. Ebenso wie in der 
Dokument-Browser-Ansicht können die farbigen Themenzuordnungen durch 
Darüberfahren mit der Maus konkretisiert werden. Ein Klick auf ein farbiges 
Wort fokussiert das Thema in der Themenansicht. 

Mit Klicken auf das Zeitreihen-Icon eines Themas (in der farbigen Box des 
Themas rechts oben) wird die Zeitansicht des TopicExplorers für dieses Thema 
in einem neuen Tab geöffnet. Ein Beispiel wird in Abbildung 4 für die Cäsium- 
Rindfleisch-Daten dargestellt, die Teil der japanischen Blog-Sammlung zum 
Stichwort „Kernkraft“ (genpatsu) sind. Zeitreihen zu weiteren Themen sowie die 
Durchschnittszeitreihe aller Themen können als Vergleich mittels Checkboxen 


` opicexplorer unproto.... 


Getting the Story from Big Data — 275 


unihalle-de 
Most Visited = 


TopicExplorer 1.2.1 


Topic 48 


| Text :] 


Serbian_rock 


Getting Started Latest Headlines = 


Lasst uns die Seite. 


The_Byrds 


Search 


Rock_music 


2000s_in_music 


© Serbian rock is the rock music @ The Byrds were an American @ Rock music is a genre of popular © For music from a year in the 
scene of Serbia During the rock band, formed in Los music that originated as "rock 2000s, go to 00 01 02 03 04 05 

@ 1960s, 1970s and the 1980s, @ Angeles, California in 1964. The @ and roll" in 1950s America and @ 06 07 08 09 This article includes 

@ while Serbia was a constituent @ band underwent multiple line-up @ developed into a range of @ an overview of the major events 
The_Beach_Boys Queen_(band) Red_Hot_Chili_Peppers Petra_(band) 

@ The Beach Boys are an @ Queen are a British rock band @ Red Hot Chili Peppers are an @ Petra is a music group regarded 
American rock band, formed in formed in London in 1970, American rock band formed in as a pioneer of the Christian 

@ 1961 in Hawthorne, California @ originally consisting of Freddie @ Los Angeles in 1983. The group's @ rock and contemporary Christian 

@ The group was initially @ Mercury (lead vocals, piano), @ musical style primarily consists @ music genres. Formed in 1972, 


television, seri... 
television (2335) 
series (2088) 
broadcast (1773) 
radio (1635) 
nota a 


film, play, char... 
film (3208) 
play (1861) 
character (1784) 
release (1598) 


write, life, family 
write (3192) 
life (3043) 
family (2975) 
return (2873) 
ho no 


series, appear, ... 
series (1790) 
appear (1679) 


music, song, b... 
music (2169) 
song (1797) 
band (1646) 
record (1602) 
Alaacn LI EnG 


character (1645) 
power (1343) 


Abbildung 2: Überblick TopicExplorer mit Bedienelementen zur Suche, zum 
Dokument-Ranking und zur Themendarstellung und -navigation (von oben 
nach unten). 
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Abbildung 3: Dokumentansicht des TopicExplorer: Die farbigen Unterstrei- 
chungen der Worter zeigen die Themenzuordnungen. Die nicht unterstriche- 
nen Wörter wurden als Stopp-Wörter (sehr häufig) oder als zu seltene Wörter 
aus der Themenanalyse ausgeschlossen. 
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Abbildung 4: Zeitansicht des TopicExplorer: Die Entwicklung mehrerer The- 
men über die Zeit wird anhand der Anzahl der ihnen zugeordneten Wörter 
durch die farbigen Zeitreihen dargestellt. 


interaktiv eingeblendet werden. Die Legende zeigt die wichtigsten Wörter der 
gewählten Themen für die Woche, über der sich die Maus befindet. Somit kann 
die Entwicklung der Themen interaktiv verfolgt werden. Ein Klick auf eine 
Woche in der Zeitreihe öffnet ein Dokument-Ranking in einem neuen Tab, das 
die wichtigsten Dokumente zu dem zuerst gewählten Thema in der mit der Maus 
gewählten Woche zeigt. Die thematischen Zeitreihen geben z. B. Auskunft, ob, 
wann und in welcher Abfolge Themen einen Höhepunkt erreichen. 

Eine zentrale Herausforderung bei der Gestaltung des TopicExplorers ist die 
Darstellung der Themen, die auf eine Weise erfolgen muss, dass Anwender die 
Themen interpretieren und von irrelevanten statistischen Artefakten unterschei- 
den können. Dafür schlagen wir vor, Themen durch Substantiv-Verb-Kombina- 
tionen (TopicFrames) darzustellen (Hinneburg et al. 2014). Die Repräsentation 
eines Themas durch häufige, themenspezifische Substantiv-Verb-Kombinationen 
hilft dem Benutzer, den Kontext der wahrscheinlichsten Wörter des Themas zu 
erfassen bzw. einzugrenzen und somit das Thema zutreffend zu interpretieren 
(Abbildung 5a). Besonders hilfreich sind TopicFrames, wenn die wahrschein- 
lichsten Wörter eines Themas ausschließlich aus Substantiven bestehen und 
das Thema aufgrund dieser Wortlisten mehrere Interpretationen haben könnte. 
Die Kombinationen mit Verben helfen, den Kontext genauer zu bestimmen. Ein 
TopicFrame besteht aus einem Substantiv und einem Verb, die im gleichen Satz 
vorkommen und demselben Thema zugeordnet sind. Abbildung 5b zeigt die häu- 
figsten TopicFrames der oben eingeführten Themen. Das Asienthema (rechts) 
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(5a) Wahrscheinlichste Wörter. 
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(5b) Häufigste TopicFrames. 


kann durch die Kombination von declare bzw. recognize mit Ländernamen als 
asiatische Außenpolitik erkannt werden. 

Für das Berechnen der TopicFrame-Repräsentationen führt der TopicExplo- 
rer eine Wortartbestimmung („Part-Of-Speech-Tagging) in der Vorverarbeitung 
durch. In weiteren Schritten wurde für den TopicExplorer das TopicFrame- 
Konzept dahingehend erweitert, dass neben Substantiv-Verb-Kombinationen 
weitere frei wählbare Wortarten für die Repräsentation der Themen kombi- 
niert werden können. Diese können bis zu den Dokumenten zurückverfolgt 
werden, sodass Anwender leicht auf Belegstellen für TopicFrames zugreifen 
können. Die verschiedenen Repräsentationen der Themen lassen sich interak- 
tiv umschalten, sodass Anwender verschiedene Sichten auf ein Thema erhalten. 
Mit der Bestimmung der Wortarten für jedes einzelne Wort in den Dokumenten 
ergibt sich die Möglichkeit, die Themen durch die wahrscheinlichsten Wörter 
einer bestimmten Wortart zu repräsentieren. Gerade weil die Wahrscheinlich- 
keiten für die unterschiedlichen Wortarten sehr variieren, ist es bei der Inter- 
pretation eines Themas oft hilfreich, eine weniger häufige Wortart in den Fokus 
zu rücken. So sind Adjektive und Adverbien sind im Vergleich zu Substantiven 
und Verben seltener. Durch die Repräsentation eines Themas durch Adjektive 
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Abbildung 6: Interaktive, hierarchische Themennavigation. 
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(6a) Durch Themenanalyse berechnete Themen. 


series, appear, ... television, seri... music, song, b... film, play, char... write, life, family 
series (1790) television (2335) music (2169) film (3208) write (3192) 
appear (1679) series (2088) song (1797) play (1861) life (3043) 
character (1645) broadcast (1773) band (1646) character (1784) family (2975) 
power (1343) radio (1635) record (1602) release (1598) return (2873) 
i P Wapsi Praha na, __- 7 = oy ha 


(6b) Vorschau des Zusammenfassens von Themen aufgrund der Hierarchie. 
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(6c) Zusammengefasstes Thema, interaktives Aufteilen ist möglich. 


lässt sich außerdem erkennen, ob und in welcher Weise ein Thema emotional 
gefärbt ist. 

Hierarchische Themen ermöglichen Anwenderinnen und Anwendern, die 
Themengrundlage an jeweils eigene Fragestellungen anzupassen. Dieses inter- 
aktive Definieren der Themen durch die Anwender wird durch Vorschauan- 
sichten, Ranking- und Dokumentansichten sowie Zeitdiagramme zur Themen- 
entwicklung unterstützt, die sich alle den aktuell gewählten Themen anpassen. 
Somit sind die Anwender nicht nur passive Konsumenten der Themen, sondern 
können diese während des Explorationsprozesses selbst definieren. 

Um dies interaktiv zu ermöglichen, werden die bei der Themenanalyse 
berechneten Themen während der Vorverarbeitung mittels eines hierarchischen 
Clustering-Verfahrens aufgrund ihrer Ähnlichkeit in den Wortverteilungen 
zusammengefasst. Als Ergebnis des Clusterings entsteht ein binärer Baum, des- 
sen Blätter die durch die Themenanalyse berechneten Themen sind. Für jedes 
Thema, das in der Clusteranalyse durch Zusammenfassen entsteht, werden in 
der Vorverarbeitung ebenfalls alle relevanten Informationen und TopicFrames 
berechnet. Die Anwender/innen können im TopicExplorer interaktiv in diesem 
binären Baum der Themen navigieren, indem sie die Maus auf die Trennlinie zwi- 
schen den farbigen Themenspalten positionieren. Dabei ändert sich als Vorschau 
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die Hintergrundfarbe der Themen, die durch einen Klick auf die Trennlinie zu 
einem einzigen Thema zusammengefasst würden. Es können zwei oder mehr 
Themen durch eine solche Interaktion zusammengefasst werden in Abhängig- 
keit davon, wie weit die beiden Themen rechts und links der Trennlinie im binä- 
ren Baum auseinanderliegen. Abbildungen 6a und 6b zeigen durch den Wechsel 
der Themenfarbe an, dass die vier Themen von links über Serien, Fernsehen und 
Radio, Musik und Filme zu einem Thema über Unterhaltung zusammengefasst 
würden, wenn zwischen die beiden mittleren Themen geklickt würde. Abbil- 
dung 6c zeigt das zusammengefasste Thema. Das Zusammenfassen kann durch 
Klicken auf den Button rückgängig gemacht werden, der rechts oben bei dem 
zusammengefassten Thema erscheint. Die Information des Zusammenfassens 
wird sofort an alle anderen Ansichten des TopicExplorers (Dokument-Browser, 
Dokumentansicht, Zeitansicht) weitergeleitet und dort dargestellt. Gerade in 
der Zeitansicht können durch das Zusammenfassen von Themen zeitliche Häuf- 
ungen sichtbar werden, die sonst in mehrere kleine Themen zergliedert sind. 
Somit wird die Auswirkung des Zusammenfassens interaktiv erfahrbar. 

Das TopicExplorer-System bietet weiterhin Volltextsuche sowie Filterfunkti- 
onen, um Anwendern den Einstieg in ein Korpus anhand von konkreten Such- 
wörtern zu erleichtern. Es können einzelne oder mehrere Wörter im Verbund 
als Suchbedingung angegeben werden. Solange ein einzelnes Wort im Suchfeld 
steht, werden durch die Auto-Complete-Funktion die Themen mit absteigen- 
der Wahrscheinlichkeit angezeigt, die zu diesem Wort passen (siehe Abbildung 
7a). So können interessante Themen ausgehend von diesem einen Wort rasch 
gefunden werden. Wenn mehrere Wörter eingegeben werden, kann zwischen 
normaler und strikter Suche gewählt werden (siehe Abbildung 7b). Bei strikter 
Suche müssen alle Wörter in einem Trefferdokument vorkommen, während die 
normale Suche nur sicherstellt, dass die Trefferdokumente möglichst viele, aber 
nicht unbedingt alle Wörter der Anfrage enthalten. In der Dokument-Browser- 
Ansicht wird für jedes Treffer-Dokument angezeigt, welche Wörter der Anfrage 
im Dokument wie oft vorkommen. 

Die thematische Stichwortsuche findet Dokumente, die das gewünschte 
Stichwort enthalten, jedoch wird zusätzlich geprüft, ob das Wort im Treffer- 
dokument auch dem gewünschten Thema zugeordnet ist. Mit dieser Suchme- 
thode können auch mit allgemeinen Suchwörtern relevante Trefferdokumente 
gefunden werden, wenn das Thema entsprechend eingeschränkt wird. Bei- 
spielsweise findet die allgemeine Stichwortsuche nach traditional Dokumente 
aus sehr verschiedenen Bereichen. Mit einer thematischen Stichwortsuche 
nach traditionalfür das Thema Musik werden jedoch nur Dokumente zu Volks- 
und Regionalmusik gefunden, die traditional enthalten und dem Thema Musik 
zuzuordnen sind. 
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Abbildung 7: Stichwortsuche. 
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Ausgestattet mit den interaktiven Möglichkeiten des TopicExplorers kön- 
nen nicht technisch ausgebildete Anwender ohne Programmierkenntnisse Topic 
Models nutzen, um Inhalte in großen Dokumentensammlungen mit wenig Auf- 
wand vorzustrukturieren. Weiterhin können die Effekte von Parametereinstel- 
lungen wie „Anzahl der Themen“, „Auswahl der analysierten Wortarten“ und 
„Weglassen von häufigen und seltenen Wörtern“ auf die Themen studiert wer- 
den, um deren semantische Qualität zu prüfen und gegebenenfalls zu verbessern. 


2.3 Stand der Technik im Vergleich 


In den letzten Jahren wuchs das Interesse an Werkzeugen, die automatische Text- 
Analyse und -Visualisierung miteinander verbinden. Zu diesem Thema wurden 
mehrere Workshops (z. B. Chuang et al. 2014) veranstaltet sowie einzelne Kon- 
ferenzbeiträge veröffentlicht. Parallel zum TopicExplorer wurden daher inter- 
national auch eine Reihe anderer Systeme entwickelt und vorgestellt. Um den 
TopicExplorer relativ zum Stand der Technik auf diesem Gebiet zu verorten, 
vergleichen wir ihn - trotz erheblicher Unterschiede in den anwendungsspezi- 
fischen Zielsetzungen - mit den anderen Systemen (Tabelle ı). Die Tabelle fasst 
die wichtigsten methodischen Ansätze zusammen, die sich auf Topic Models 
stützen, und stellt deren Eigenschaften dar. 

Zu den international bekannten Systemen gehört beispielsweise das Seren- 
dip-System (Alexander et al. 2014), das Informatiker und Anglisten an der Uni- 
versität Wisconsin-Madison, USA zur Exploration englischsprachiger Korpora 
entwickelt haben. Ähnliche weniger ausgebaute Ansätze sind LDAvis (Sievert 
& Shirley, 2014) und topic-explorer (Murdock & Allen, 2015), ein einfacher The- 
men-Browser mit gleichem Namen. Der Hallenser TopicExplorer bietet zu fast 
allen Möglichkeiten hinsichtlich Ranking und Themenrepräsentation ähnliche 
Funktionen wie Serendip an, doch basieren sie auf anderen Visualisierungs- und 
Interaktionstechniken. Darüber hinaus hält der TopicExplorer aber auch wich- 
tige zusätzliche Funktionen vor, wie z. B. Themen interaktiv zusammenzufassen 
und ihren zeitlichen Verlauf darzustellen. Diese zusätzlichen Möglichkeiten, die 
von den Anwendern hoch geschätzt werden, sind auf dem internationalen Stand 
der Technik ausgeführt, dessen Aspekte im Folgenden kurz umrissen und mit 
den Systemen in Tabelle ı verknüpft werden. Wesentlich sind die Aspekte: (1) 
maschinelles Lernen der zeitlichen Themenentwicklung, (2) deren Visualisie- 
rung, (3) die hierarchische Themengliederung und (4) die Software-Organisation. 

Die zeitliche Themenentwicklung wird am einfachsten modelliert, indem die 
Themen zuerst ohne Berücksichtigung der Zeit gelernt werden und danach deren 
Entwicklung durch die gemeinsame Analyse der Zeitstempel der Dokumente 
und der Zuordnungen der Wörter zu den Themen charakterisiert wird. Dieser 
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Ansatz wird von fast allen Visualisierungssystemen TopicExplorer, TIARA (Liu 
et al. 2009, Pan et al. 2013), EvoRiver (Sun et al. 2014), RoseRiver (Cui et al. 2014) 
in diesem Bereich verfolgt. Eine Ausnahme ist Dvita (Derntl et al. 2o14), das 
ein deutlich rechenintensiveres Themenmodell nutzt und die zeitlichen Ander- 
ungen von Themenpràferenzen durch Wahrscheinlichkeitsverteilungen model- 
liert. Bisher zeigte jedoch keiner der beiden Ansàtze (Lernen der Themen mit 
oder ohne Zeitinformation) besondere Vorteile für die Inhaltsanalyse. Neben 
einer Übersichtsdarstellung der Themenentwicklung und verschiedener Inter- 
aktionsmöglichkeiten, die alle genannten Systeme bieten, wurden in TIARA, 
EvoRiver und RoseRiver prototypisch die Entwicklungen von Beziehungen 
zwischen Themen visualisiert. Diese Möglichkeit soll ebenfalls in zukünftigen 
Versionen des TopicExplorers eingebaut werden, um neuartige Verbindungen 
zwischen Themen zu erkennen. 

Die Visualisierungsansätze zur hierarchischen Themengliederung wurden 
in LDAvis, TopicPanorama (Liu et al. 2014) und HierarchicalTopicGrid (Jojic et 
al. 2016) prototypisch umgesetzt, um speziell entwickelte Visualisierungs- und 
Interaktionstechniken zu untersuchen. Die Kombination von Hierarchie und 
zeitlicher Entwicklung wurde in TopicExplorer, HierarchicalTopics (Dou et al. 
2013) und RoseRiver umgesetzt, wobei HierarchicalTopics eine nur prototy- 
pische Studie ist. RoseRiver ist dagegen eine spezielle Visualisierung für wenige 
vorausgewählte Themen, die beide Aspekte verbindet und nach einer Evaluation 
ebenfalls im TopicExplorer umgesetzt werden kann. 

Software-Design, Wartung, Erweiterbarkeit und Konfigurierbarkeit als letzter 
Aspekt wurden nur im TopicExplorer und Dvita explizit adressiert. Für die ande- 
ren Systeme wurde dieser Aspekt in den Veröffentlichungen nicht angesprochen. 

Footprint (Isaacs et al. 2014), das interessante Funktionen im Bereich Suche 
bietet, fällt ansonsten aus dem Vergleichsrahmen heraus, weil es keine Topic 
Models benutzt. Stattdessen werden hier Dokumente durch einen externen 
Informationsservice mit Themen annotiert, der nur für Englisch verfügbar ist. 
Deshalb können dort keine Wortzuordnungen zu Themen gemacht werden und 
daher enthält das System keine weiteren darauf aufbauenden Funktionen. 

Zusammenfassend kann festgestellt werden, dass der Hallenser TopicExplo- 
rer im Vergleich mit allen anderen Systemen einen großen Funktionsumfang 
bietet und alle in der Forschung auftretenden Aspekte der Visualisierung und 
Interaktion mit Topic Models abdeckt. Einzelne innovative Ideen für weitere 
Funktionalitäten können durch die erweiterbare Software-Architektur ergänzt 
werden. 
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3. Sozialwissenschaftliche Anwendung am Beispiel Fukushima 
3.1 Fukushima und neue Medien als Artikulationsraum 


Als ein Beispiel für die Anwendung des TopicExplorers werden in diesem Aufsatz 
exemplarisch japanische Blogs über den Skandal des mit radioaktivem Cäsium 
verseuchten Rindfleisches, das einige Monate nach dem Atomunfall von Fuku- 
shima zunächst in Supermarktregalen in Tokio, später dann auch in anderen Tei- 
len Japans auftauchte, untersucht. Im Falle dieses Skandals spielte das Internet 
eine zentrale Rolle. Denn die Gefahren, die von Radioaktivität ausgehen, sind 
für den Einzelnen in der realen Umwelt weder direkt erfahrbar noch sichtbar. 
Folglich ist das Bewusstsein für die Gefährlichkeit der Lage in der Gesellschaft 
zunächst nur latent vorhanden. Das Ausmaß der Bedrohung wird den Menschen 
erst durch gesellschaftliche Instanzen, insbesondere durch die Medien, vermittelt 
und somit sichtbar und „begreifbar“ gemacht. Die Menschen nutzen bei diesem, 
nach Latour (2004) auch als „Artikulation“ bezeichneten Vorgang in erheblichem 
Maße das Internet als „Artikulationsraum“ (Kuchinskaya 2011: 406). Denn durch 
die neuen Medien kann der Einzelne seine Ansichten, Einschätzungen und Infor- 
mationen zu gesellschaftlich relevanten Themen im Internet formulieren und 
rasch verbreiten. So verschafft das Internet dem Einzelnen die Möglichkeit, im 
Austausch mit anderen ein Verständnis des Unglücksgeschehens zu entwickeln, 
das bis zu einem gewissen Grade unabhängig von den Interpretationen ist, die 
ihm die konventionellen Medien anbieten. Um die Rolle des Internets als Arti- 
kulationsraum einschätzen zu können, ist u. a. die Frage bedeutungsvoll, in wel- 
chem Umfang die Berichterstattung der konventionellen Medien die Inhalte z. B. 
von Blogs prägt und bis zu welchem Grad Blogs davon unabhängige Themen 
aufgreifen. Im folgenden Abschnitt werden der Skandal und seine Darstellung in 
japanischen Blogs anhand eines Blog-Korpus und seiner automatisierten Inhalts- 
analyse mit dem TopicExplorer beschrieben. Einem Vergleich der so erzielten 
Ergebnisse mit den Inhalten der Printmedien folgt eine kurze Diskussion und 
Zusammenfassung. 


3.2 Der Cäsium-Skandal nach Fukushima in der TopicExplorer- 
Analyse von japanischen Blogs 


Nach dem Großen Ostjapan-Erdbeben vom 11. März 2011 wurden aus dem Kern- 
kraftwerk Fukushima-ı große Mengen radioaktiver Substanzen in die Umwelt 
freigesetzt, die nicht nur die nähere Umgebung, sondern stellenweise auch ent- 
fernte Landesteile Japans verseuchten. Die japanische Regierung tat sich schwer 
damit, die radioaktive Kontamination einzudämmen und die Sicherheit von 
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Lebensmitteln, besonders aus der direkt betroffenen Region Tohoku, sicherzu- 
stellen. Politiker und Beamte ergriffen nur zögerlich Maßnahmen, um die Ver- 
seuchung von Japans Nahrungsmittelversorgung zu verhindern. Unter anderem 
versäumten sie es, den Vertrieb von Reisstroh aus den kontaminierten Regi- 
onen wirkungsvoll zu verbieten. Dieses Reisstroh wurde folglich an Züchter im 
ganzen Land als Rinderfutter verkauft, sodass auch Rinderbestände außerhalb 
des ursprünglich betroffenen Gebiets mit radioaktivem Cäsium verseucht wur- 
den. Außerdem verließ sich die japanische Regierung zunächst auf freiwillige 
Vertriebssperren für Rindfleisch aus radioaktiv gefährdeten Gebieten, nur um 
dann im Juli 2011 aus Berichten von Kommunen und Medien zu erfahren, dass 
Rindfleisch mit einem erhöhten Gehalt von radioaktivem Cäsium in den Rega- 
len von Tokioter Supermärkten auslag. Erst bei Bekanntwerden dieses Skandals 
reagierte die Regierung mit einem Vertriebsverbot für Rindfleisch aus der betrof- 
fenen Region. Diese Nachlässigkeiten schadeten der Gesundheit der Konsumen- 
ten und störten das Vertrauen, das über Jahre in hochpreisiges japanisches Rind- 
fleisch aufgebaut worden war (Kingston 2012). 

Für die TopicExplorer-Studie wurden Blog-Einträge in japanischer Spra- 
che aus dem Internet maschinell heruntergeladen, die drei Stichworte, nämlich 
„Rind“, „Cäsium“ und „Atomkraft“ (genpatsu), enthalten. Letzteres Stichwort 
wurde hinzugefügt, um den thematischen Fokus der Texte sicherzustellen. Für 
den Untersuchungszeitraum von März bis September 2011 konnten so 1931 
Texte mit einer durchschnittlichen Länge von 2402 Worten gesammelt und 
anonymisiert werden. Das Korpus von Blog-Texten wurde nach linguistischer 
Vorverarbeitung dann einer automatischen Inhaltsanalyse durch den Topic- 
Explorer unterzogen. Die so ermittelten Themen sind durch eine Liste ihnen 
zugeordneter Worte charakterisiert, die vom TopicExplorer noch durch eine 
Aufstellung der häufigsten im jeweiligen Thema vorkommenden Kollokatio- 
nen ergänzt wird (Tabelle 2). Die anhand von Stichworten und Kollokationen 
interpretierten Themen, denen je ein Thementitel zugeordnet wird, können 
dann anhand der Textpassagen, in denen die Themen behandelt werden, über- 
prüft werden. Dadurch lässt sich die Plausibilität der Themenanalyse direkt 
an den Blog-Inhalten verifizieren, und die wichtigsten Textpassagen zu einem 
bestimmten Thema können schnell aufgefunden werden. In der separaten Zeit- 
ansicht (Abbildung 8) kann die Entwicklung eines Themas im Untersuchungs- 
zeitraum oder einem Ausschnitt davon interaktiv verfolgt werden, z. B. auch 
im Vergleich zu Zeitreihen weiterer Themen oder zur Durchschnittszeitreihe 
aller Themen. 

Die zwanzig Themen, die der Algorithmus im Blog-Korpus zum Cäsium- 
Skandal gebildet hat, sind in Tabelle 2 in der Reihenfolge aufgeführt, in der sie 
vom TopicExplorer arrangiert werden. In den Spalten sind nach der Nummer des 
jeweiligen Themas die Spitzeneinträge aus den Listen der häufigsten Stichworte 
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und Kollokationen für das jeweilige Thema in japanischer Sprache entsprechend 
der jeweiligen TopicExplorer-Ansicht wiedergegeben. Diese Listen haben oft 
einen Gesamtumfang von einigen Hundert Eintràgen und werden von der Ana- 
lysesoftware für jedes Thema erstellt. In der folgenden Zeile ist eine deutsche 
Benennung des Themas (=Thementitel) eingetragen, die durch Interpretation 
der Stichwortliste, der Kollokationen und der repräsentativen Texte des Themas 
gewonnen wurde. Es folgen die deutschen Übersetzungen ausgewählter Stich- 
worte und Kollokationen. Bei den Themen, die u. a. auch durch die Stichworte 
„Cäsium“ oder „Rind“ charakterisiert sind, ist zusätzlich die Häufigkeit dieser 
Stichworte vermerkt. Beispielsweise sind dem Thema 9 „Ursache“, „Cäsium“ und 
„Rind“ 586-mal bzw. 542-mal zugeordnet. 

Die Themen 7, o, 12 und 17 sind am engsten mit dem eigentlichen Skandal- 
geschehen verbunden. Alle vier Themen zeichnen sich durch häufiges Auftreten 
der Worte „Cäsium“ und insbesondere „Rind“ aus. Bei Thema 7 weisen die Stich- 
worte und besonders die typischen Kollokationen darauf hin, dass es die Ent- 
deckung und nachfolgende Überwachung von Cäsium-verseuchtem Rindfleisch 
zum Gegenstand hat. Die genauere Durchsicht der repräsentativen Textstellen 
bestätigt, dass hier die Aufdeckung des Skandals, dass von radioaktivem Cäsium 
verseuchtes Rindfleisch aus Fukushima zu Lebensmitteln verarbeitet worden 
war, thematisiert wird. 

Unter den häufigsten Stichworten zu Thema o findet sich „Reis-Stroh“ an 
oberster Stelle. Die für dieses Thema repräsentativsten Texte beschreiben die 
bereits früh erkannte Ursache des Skandals, nämlich dass Reis-Stroh im Freien 
gelagert worden und dort radioaktivem Fallout ausgesetzt war, bevor es dann 
an Rinder verfüttert wurde. In Thema ı2 sind Textpassagen zusammengefasst, 
die über die Folgen bzw. Schäden, die der Konsum von radioaktiv verseuchtem 
Rindfleisch mit sich bringen kann, berichten. Ebenfalls auf den Cäsium-Skandal 
im engeren Sinne nehmen auch die typischen Textstellen des Themas 17 Bezug, 
die die Probleme und das Vorgehen der Rinderzüchter behandeln, die teilweise 
schon vor der Nuklearkatastrophe mit der Maul-und-Klauenseuche zu kämpfen 
hatten und nun erneut erhebliche Verluste ihrer Bestände hinnehmen müssen. 

Unter den Themen 4 und 11 sind Textstellen gebündelt, die die Maßnahmen 
der Regierung und die Reaktionen darauf wiedergeben. Die typischen Kollo- 
kationen zu Thema 4, dem auch das Wort „Rind“ an 23 Stellen zugeordnet ist, 
lauten „Untersuchungen/Nachforschungen durchführen“, „Plan vorlegen“ und 
„Maßnahmen fordern“. Hier wird u. a. die Lebensmittelkontrolle der Rindfleisch- 
bestände und die Forderung nach ihrer Verschärfung, um die Konsumenten 
zu schützen, Vertrauen wiederherzustellen und dadurch die Auslieferung von 
Fleisch wieder zu ermöglichen, angesprochen. Unter Thema 11 taucht das Stich- 
wort „Rind“ zwar nicht auf, aber wie die Stichworte „Regierung“, „anhalten“ und 
„Katastrophe erleiden“ sowie die Kollokationen „Stopp aufheben“, „Begrenzung 


Getting the Story from Big Data — 291 


anordnen“ und „Stopp anordnen“ zeigen, thematisieren die hier gesammelten 
Blog-Auszüge die Maßnahmen im Gefolge der Reaktorkatastrophe, zu denen 
u. a. auch der Auslieferstopp für bestimmte Lebensmittel gehörte. 

Die sechs Themen 1, 2, 3, 5, 14 und 15 haben das Auftreten von „Cäsium“ 
unter den charakteristischen Stichworten gemeinsam, ohne dass das Wort „Rind“ 
präsent wäre. Thema ı zu den Auswirkungen auf „Lebensmittel“ wird u. a. cha- 
rakterisiert durch die Stichworte „Verseuchung“, „Radioaktivität“, „Lebensmit- 
tel“, „Grenzwert“, „verseuchen“, „Sicherheit“, „Gemüse“ und, mit etwas gerin- 
gerer Häufigkeit, „Cäsium“. Die häufigste Kollokation für dieses Thema lautet 
„[mit] Radioaktivität verstrahlen“. Die charakteristischen Einträge für Thema 
1 illustrieren die Sorgen der Blogger, die in Folge des Rindfleischskandals die 
radioaktive Verseuchung der Lebensmittelversorgung als persönliche Bedro- 
hung erkennen. Beispielsweise kommentiert ein Blogger am 2o. Juli 2011 aus- 
drücklich: ,[Man muss] den eigenen Körper selbst schützen. So ein Zeitalter ist 
angebrochen“ (jibun no mi wo jibun de mamoru. so iu jidai ni natta). 

Die Detailanalyse repräsentativer Textpassagen ergibt für Thema ı außer- 
dem, dass hier vielfach Medienauftritte von Koide Hiroaki (*1949) wiederge- 
geben werden. Insgesamt wird Koide in 108 Textstellen mit Bezug zu Thema 
ı erwähnt. Koide, ein auf Nukleartechnik spezialisierter Ingenieur, war Assis- 
tenzprofessor am Kyoto University Research Reactor Institute (KURRI). Er ist 
einer der wenigen japanischen Nuklearspezialisten, die schon frühzeitig Japans 
Ausstieg aus der Kernenergie gefordert haben - eine Unabhängigkeit, für die er 
mit der Stagnation seiner Universitätskarriere auf der Stufe des „ewigen Assis- 
tenzprofessors“ (mannen no jokyo) bis zu seiner Pensionierung 2015 bezahlte. 
Am 23. Mai 2011 sagte Koide als Experte vor einem Ausschuss des japanischen 
Parlaments aus. Obwohl an diesem Tag insgesamt vier prominente Kritiker der 
Atomenergie angehört wurden, übertrug das japanische Fernsehen, das sonst 
regelmäßig live aus dem Parlament sendete, diese Sitzung nicht, und auch die 
Zeitungen berichteten darüber nur mit kurzen Zusammenfassungen. Im Blog- 
Korpus dagegen waren erste Berichte schon am Folgetag der Ausschusssitzung 
zu finden, die auch danach noch oft zitiert wurden. Besonders häufig wurde 
Koides Aussage wiedergegeben, dass es auch unter seinen Kollegen viele gebe, 
denen gesagt worden sei, dass sie alarmierende Messergebnisse nicht veröffent- 
lichen sollten (watashi no doryo demo, kenshutsu shita deta wo kohyo shinai you 
iwareta hitotachi ga nannin mo imasu), um „Panik“ zu vermeiden. 

Thema 15 umfasst Passagen aus 215 Texten, die das Wort „Cäsium“ enthalten, 
und bündelt Kommentare und Zusammenfassungen zur japanischen Medienbe- 
richterstattung über Fukushima und seine Folgen, wie die charakteristischen 
Stichworte „Japan“, „Nachrichten“, ,japanisches Volk“ und „Berichterstattung“ 
sowie die Kollokationen „Freiheit [von] Berichterstattung“, „Edition senden“, 
„Nachrichten sehen“ und „Massenmedien berichten“ erkennen lassen. Thema 14 
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schließlich nimmt nur an 63 Stellen direkten Bezug auf Cäsium. Wie die Stich- 
worte „radioaktive Strahlung“, ,Dekontamination“ und „Strahlenmenge“* sowie 
die Kollokationen „[so und so vielen] Atombomben entsprechen“, „Strahlungs- 
menge niedergehen“ und „Atombomben[strahlung] reduziert [sich]“ vermuten 
lassen, behandeln diese Textstellen die dramatische Menge freigesetzter Radio- 
aktivität und die dadurch notwendig gewordenen Dekontaminationen. 

Die übrigen Einzelthemen wurden ohne das Stichwort „Cäsium“ gebildet. Sie 
behandeln zentrale Aspekte des Kernkraftwerkunfalls, die teilweise aber auch 
mit dem Cäsium-Rindfleisch-Skandal in Verbindung gebracht werden. Beispiels- 
weise sind unter Thema o, das u. a. durch die Wörter „Atomkraft“, „[Premier- 
minister] Kan“, ,TEPCO“, „Verantwortung“ und „Politik“ charakterisiert wird, 
Fragen nach den Konsequenzen und nach der Verantwortung u. a. für den kon- 
kreten Umgang mit dem Kraftwerksunfall erfasst. Darauf weisen auch die am 
häufigsten verwendeten Kollokationen hin wie z. B. „Verantwortung prüfen“, 
„Premierminister zurücktreten“ und „Premierminister [Amt] aufgeben“. Dabei 
werden auch in Verbindung mit dem Cäsium-Skandal Anschuldigungen gegen 
die damals amtierende Regierung erhoben. So behauptete ein Blogger am 21. Juli 
2011, „die Ausbreitung Cäsium-verseuchter Rinder ist ein Verbrechen der Kan- 
Regierung“ (seshiumu osen gyu no kakudai ha Kan seiken no hanzai da). Auf die 
übrigen Themen wird aus Platzgründen hier nicht näher eingegangen. 


3.3 Die zeitliche Entwicklung der Themen und der Einfluss einzelner 
Akteure 


Der zeitliche Verlauf der Einzelthemen unterstützt ihre aus Stichworten, Kollo- 
kationen und Beispieltexten gewonnene Interpretation. Abbildung 8 zeigt den 
zeitlichen Verlauf aller Themen, die in den Blogs zum Skandal um das mit radio- 
aktivem Cäsium verseuchte Rindfleisch identifiziert wurden. Insgesamt markie- 
ren die Themen 7 „Entdeckung“ und o „Ursache“ deutlich das Bekanntwerden 
des Cäsium-Skandals in der zweiten Juliwoche. Die früheste Spitze erreicht 
naturgemäß Thema 7, da es die Entdeckung des Skandals zum Gegenstand hat. 
Neun der zehn repräsentativsten Textstellen dieses Themas datieren auf den 
9. Julibzw. die Tage unmittelbar danach, als die Medien erstmals über den Skandal 
berichteten. Auch das Thema 5 „Nachweis..”, das die Bestimmung der Cäsium- 
werte beschreibt und insofern mit Thema 7 eng verwandt ist, erreicht in dieser 
Woche seinen Spitzenwert. Die für Thema o „Ursache“ repräsentativsten Texte 
datieren hingegen überwiegend auf die zweite Juli-Hälfte, als man Reis-Stroh 
als „Überträger“ von radioaktivem Cäsium auf Rinder erkannte. Es überrascht 
nicht, dass die Zahl der Textstellen von Thema o daraufhin besonders stark 
abnimmt: Nachdem die Ursache des Skandals erst einmal gefunden worden war, 
stieß sie bald weniger auf Interesse als ihre Folgen. Folglich treten mit Thema 12 
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Abbildung 9: Themen 0, 15 und 16 im Vergleich zum Durchschnitt Zeitverlauf. 


„Schäden... schon in der zweiten Juli-Hälfte Textpassagen, die von den Folgen 
bzw. Schäden, die der Konsum von radioaktiv verseuchtem Rindfleisch mit sich 
bringen kann, berichten, besonders häufig auf. 

Mit dem Bekanntwerden des Skandals weisen alle übrigen Themen der Blogs 
einen Anstieg auf, der aber weniger prononciert ausfällt als bei den o.g. vier 
Themen und in seiner Größenordnung weitgehend dem Durchschnitt der The- 
men im Gesamtkorpus entspricht. Die Themen o, 15 und 16 treten dabei noch 
am stärksten, nämlich überdurchschnittlich, hervor (Abbildung 9). Die Zunahme 
von Thema 16 „persönliche Wahrnehmung‘, das persönliche Eindrücke zusam- 
menfasst, lässt die große emotionale Anteilnahme am Geschehen vermuten. In 
der darauffolgenden Woche bleibt nicht nur dieses Thema prominent, sondern 
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auch Thema 15 „Berichterstattung und Kommentare“ schließt dicht auf, das auf 
eine intensive Auseinandersetzung mit der medialen Berichterstattung schließen 
lässt. Schließlich steigt Thema o „Verantwortung...“ im Zuge des Skandals ähn- 
lich steil an wie Thema 15, sodass zu vermuten ist, dass der Skandal die Bewer- 
tung der Rolle des Kraftwerkbetreibers von Fukushima und der japanischen 
Regierung beeinflusst. 


3.4 Schlussfolgerungen: Neue Medien als Artikulationsraum 


Yanagisawa (2012) hat die Berichterstattung über den Cäsium-Skandal anhand 
von ca. 1000 japanischen Zeitungsartikeln für den gleichen Zeitraum detailliert 
untersucht. Ein Vergleich seiner Ergebnisse mit den Themen, die mit Hilfe des 
TopicExplorers im Blog-Korpus identifiziert wurden, zeigt, dass sowohl inhalt- 
lich als auch in ihrer spezifischen Abfolge die Themen weitgehend korrespondie- 
ren (Tabelle 3). Beispielsweise hat Thema 9 im Blog-Korpus, das die Ursache des 
Skandals beschreibt, einen ganz ähnlichen Gegenstand wie Cluster 8 bei Yana- 
gisawa. In den Blog-Texten werden sämtliche Themen, die in den Printmedien 
behandelt werden, ebenfalls aufgegriffen. Die bei der Beschreibung der einzel- 
nen Themen behandelten Beispiele illustrieren, dass die konventionellen Medien 
auf die Inhalte der Blogs einen großen Einfluss ausüben - schon alleine deshalb, 
weil mediale Inhalte vielfach zitiert und die darin enthaltenen Informationen in 
den Blogs oft kommentiert werden. 

Im Blog-Korpus finden sich darüber hinaus jedoch auch zahlreiche Gegen- 
stände, die die Printmedien nicht thematisieren. Sie sind in den unteren Zeilen 
von Tabelle 3 aufgeführt. So findet im Internet eine kritische Auseinanderset- 
zung mit der Berichterstattung der konventionellen Medien statt (Thema 15), es 
wird über die Notwendigkeit und die Ergebnisse unabhängiger Radioaktivitäts- 
messungen berichtet (Thema 8), und Erfahrungen aus Tschernobyl (Thema 19) 
werden ebenso weitergegeben wie Appelle für eine rasche und flächendeckende 
Dekontamination (Thema 14). An diesen Punkten zeigen sich die Interessen und 
Sorgen der Bevölkerung, auf die die konventionellen Medien nicht eingehen und 
die daher im Sinne einer unabhängigen „Artikulation“ im Internet besprochen 
werden. 
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Tabelle 3: Entsprechungen von Clustern nach Yanagisawa (2012: 71) mit Topic- 
Explorer-Themen (Quelle: Eigene Zusammenstellung). 


Cluster Cluster-Nr. Themen-Nr. 
Schaden 1 12 
Atomkraftwerksunfall und seine Folgen 2 6, 10, 13, 18 
Forderungen 3 4 
Lebensmittel 4 1 
Auswirkungen auf den menschlichen Körper 5 2,3 
Gegenwärtige Lage 6 5,7 
Gegenmaßnahmen 7 11 
Ursachen 8 9 
Verantwortung für Unfallfolgen 0 
(Selbst)Messungen von Radioaktivität 8 
Dekontamination 14 
Medienkritik 15 
Persönliche Wahrnehmung 16 
Probleme der Rinderzüchter 17 
Erfahrungen von Tschernobyl 19 


Aber auch innerhalb der Themen, die Blogs und Printmedien gemeinsam haben, 
zeigen sich unterschiedliche Schwerpunktsetzungen. Dies ist oft auf den beson- 
deren Einfluss zurückzuführen, den bestimmte Persönlichkeiten auf das Internet 
ausüben. So ist davon auszugehen, dass die Kritik, die z. B. fachliche Autoritäten 
wie Koide Hiroaki am Handeln der Regierung äußerten und die im Internet weite 
Verbreitung fand, das Vertrauen der Internetnutzer in die Lebensmittelsicherheit 
beeinflusst hat. Es ist daher anzunehmen, dass trotz des Einflusses, den die tradi- 
tionellen Medien besitzen, Personen mit ausgewiesener Expertise ihren Ansich- 
ten durch die Verbreitung von Blogbeiträgen zu einer großen gesellschaftlichen 
Präsenz verhelfen können. 


4. Fazit und Perspektiven 


Mit dem TopicExplorer wurde ein Werkzeug entwickelt, das Personen ohne 
Programmierkenntnisse die explorierende Analyse großer Textsammlungen 
ermöglicht und dadurch einer breiten Gruppe von Anwendern Zugang zu neuen 
Forschungsmöglichkeiten mit Big Data eröffnet. In zukünftigen Arbeitsschritten 
soll insbesondere die Benutzerfreundlichkeit weiter erhöht und die Steuerung 
des Systems vereinfacht werden. Außerdem sollen in den TopicExplorer Quali- 
täts- und Kohärenzmaße für jene automatisch berechneten Themen eingebaut 
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werden, die mit menschlichen Bewertungen von Themen hinsichtlich ihrer 
Interpretierbarkeit eng korrelieren (Röder et al. 2015). Somit können auch Nutzer 
ohne vertiefte Kenntnisse statistischer Verfahren Topic Models intuitiv bewerten 
und aussagekräftige Themen identifizieren. 

Die Beispielanalyse japanischer Blogs mithilfe des TopicExplorers hat 
gezeigt, dass viele Japanerinnen und Japaner den Lebensmittelskandal um 
Cäsium-verseuchtes Rindfleisch in den alten und neuen Medien kritisch verfol- 
gen. Außerdem lässt die Analyse Aspekte in den Blog-Einträgen erkennen, die 
in den gedruckten Medien nicht in vergleichbarer Weise zum Ausdruck kom- 
men, wie etwa die große Sorge der Bevölkerung vor gesundheitlichen Schäden 
und das Interesse an Informationen, die als regierungsunabhängig eingeschätzt 
werden. Der Einfluss der sozialen Medien geht dabei bereits so weit, dass sich 
das japanische Industrie- und Wirtschaftsministerium METI veranlasst sah, ein 
Unternehmen zu beauftragen, die Diskussion über Kernenergie auf dem Forum 
„2channel“ und auf Twitter zu überwachen - angeblich, um wirtschaftlichen 
Schäden durch Verbreitung falscher Gerüchte vorzubeugen. 
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Significance Filters for N-gram Viewer 


Abstract This paper presents a visualization tool for the analysis oftendencies 
in language use over time. Given a dated and tokenized corpus, it calculates 
frequencies of selected n-grams and visually presents them as data points on 
a line chart in a coordinate system, with time on the x axis and relative fre- 
quency on the y axis. It provides the option of smoothing the graph in order to 
make the general tendency more salient. The user can specify an n-gram as a 
sequence of tokens, lemmas, and/or POS tags, if the corpus provides these anno- 
tations. Along with the original text, the tool also accesses the metadata of the 
corpus, such as dates and authors’ names, allowing for a comparison of the use 
of n-grams by different authors at different time periods in context. The latest 
version of our tool introduces a filtering mechanism that indicates the periods 
of time throughout which the observed values within one or more datasets are 
significantly different. We used Fisher’s exact test of independence because it 
has the advantage of providing reliable results even for sparse data. 


1. Introduction 


Exploration of the patterns in language use over time is useful for a number of 
Natural Language Processing (NLP) tasks such as authorship attribution and 
topic detection. Google Ngram Viewer’ is one example of such a tool. While 
providing the functionality of querying the Google Books corpus’, its current 
functionality does not include uploading and processing one’s own text cor- 
pora. This limitation is overcome by our new Ngram Tendency Viewer Slash/A?, 
which is more suitable for researchers interested in exploring a specific collec- 
tion of texts. 

Given a dated and tokenized corpus, Slash/A calculates and visually presents 
frequencies of selected n-grams as a line chart in a coordinate system, with time 


1 The online Google Ngram Viewer is available here: https://books.google.com/ngrams 
2 The Google Books corpus can be accessed here: https://books.google.com 
3 The online Slash/A tool can be accessed here: https://tinyurl.com/slasha-tool 
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on the x axis and relative frequency on the y axis and provides the option of 
smoothing the graph in order to make the general tendency more salient. The 
user can specify an n-gram as a sequence of tokens, lemmas and/or POS tags, 
if the corpus provides these annotations. Along with the original text, the tool 
also accesses the metadata of the corpus, such as dates and authors’ names, 
allowing for a comparison of the use of n-grams by different authors at different 
time periods in context. 

The latest version of our tool introduces a filtering mechanism that indi- 
cates whether the observed values in a specified time period are significantly 
different in terms of (i) lower and higher extremes of n-gram frequencies and 
(ii) use of the same n-gram by different authors. In these cases, a significance 
filter can facilitate scientific hypothesis testing. The statistical test that we 
decided to use is Fisher's exact test of independence (Fisher, 195o). It is very 
similar to the x2 test of independence but has the advantage of providing reli- 
able results even in cases with very little data, e.g., if an n-gram only occurs five 
times in the whole corpus. 


<?xml version="1.6" encoding="UTF-8"?> 
<correspondence to="E" ="R"></correspondence> 
<date> 

<writter '1845-01-10"></written> 

</date> 

<text> 
New Cross, Hatcham, Surrey. 
I love your verses with all my heart, dear Miss Barrett, [...] 
R. Browning. 


Figure 2.1: A simplified sample file in XML format. Required elements are 
highlighted blue 
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2. Slash/A N-gram Tendency Viewer 
Data retrieval 


Slash/A is designed to process corpora in XML format, one text per file.* To make 
use of the full functionality of the tool, each XML file should contain the original 
text, the date, the author's name, and the annotations for tokens, lemmas and 
POS tags in the order they appear in the text (see Figure 2.1). 

All of the token annotations can then be used to compose a corpus query. The 
following are examples of valid queries using the Penn Tree Bank POS tag set:° 


our present a query for the bi-gram our present 


/VBP presents/NNS a query for all bi-grams with a non-third 
person singular verb in present tense as the 
first token and the plural form of the noun 
presents as the second one 


present/lemma/V* a query for all uni-grams with any form of 
the verb present 


The second example shows that an omitted token in a query leads to matching 
any token with the specified POS tag. The last example illustrates the use of a 
combination of all three types of annotations along with the wildcard character 
(°). The search hits are counted in every document of the corpus and a relative 
frequency is calculated for each day of the whole time period the corpus covers. 
These daily relative frequencies can then be smoothed for a more abstract view. 
We use moving average as a smoothing technique, and the length of the slid- 
ing window can be determined by the user. The five preset levels of smoothing 
correspond to common time intervals: day (no smoothing), week (smoothing 
parameter p = 3), month (p = 15), three months (p = 45), and year (p = 182). For 
more detailed information on smoothing as well as the requirements for the cor- 
pus format, see Todorova and Chinkina (2014). 


4 The Brownings’ corpus, our development corpus, the examples from which are used 
in this paper, can be downloaded here: http://linguistics.chrisculy.net/lx/resources/. 
A detailed description of the format of the corpus can be found here: 
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/The_TCF_Format 

5 The Penn Tree Bank POS tag set can be found here: 
http://www.cis.upenn.edu/~treebank/ 
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Visualization 


The basis of our visualization is a simple graph. Relative frequencies of n-grams 
are plotted as data points, and the selected level of smoothing is represented by 
a continuous line fitted to the data points (see Figure 2.2). Following Schneider- 
man’s (1996) taxonomy, we have included functionality that permits the high 
level tasks of overview, zoom, filter, details-on-demand and history. The inter- 
active visualization allows for non-linear exploration of a dataset: adding and 
deleting word lines, keeping track of successful and unsuccessful queries within 
the current session and getting access to original text. 


Š Loan corus: @ 
HowT 
pa roa Choose Files | 370 mues 
EuzaseT Barrett Brownin 4 Rosert BROWNING SEARCH WORDS IN... @ 
@Teoecrsy cry wex woww SEASON vean oecane  Cusrouze: [500 - WHOLE CORPUS 
° LETTERS ey ELZABETH 
eos 
1 o ° KNOW 
a IFEEL 
110 
oo ° 
0.000 ° 


X now (ev E) 
Fee (av E) 
— onoi par ve (ev E) 
Jar Aus aO: "oe o 
10 Jan 1845, Frioay — 22 May 1846, Frivay 
LAST QUERIES: L FEEL (By E) on 05 Mar 1845, Wepnesoay 
REMOVED | Love (BY R) 
Bv E LIFE,' IT WAS JUST A PHRASE — AT LEAST IT DID NOT SIGNIFY MORE THAN 
I FEEL (BY R) 
SUCCESSFUL THAT THE SENSE OF MORTALITY, AND DISCOMFORT OF IT, IS PECULIARLY 
v1.012.xm1 
I KNOW (By R) STRONG WITH ME WHEN EAST WINDS ARE BLOWING AND WATERS FREEZING. FOR 
NOT FOUND THE REST, | AM ESSENTIALLY BETTER, AND HAVE BEEN FOR SEVERAL 
I KNOW (By E) 
Wonos (roral) WINTERS; AND | FEEL AS IF IT WERE INTENDED FOR ME TO LIVE AND NOT DIE, 
| FEEL (BY E) 924 AND | AM RECONCILED TO THE FEELING. YES! | AM SATISFIED TO ‘TAKE uP’ 
OCCURRENCES: WITH THE BLIND HOPES AGAIN, AND HAVE THEM IN THE HOUSE WITH ME, FOR 
| Love (By E) 1 


ALL THAT | SIT BY THE WINDOW. BY THE WAY, DID THE CHORUS UTTER SCORN 


Figure 2.2: Slash/A interface: a top panel containing a link to the information 
about the tool and a button for loading a corpus, a graph showing smoothing 
by week, a query panel, a history element, and a reading element. 
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Motivation for Significance Filters 


The visualization of relative n-gram frequencies manages to convey a lot of 
information quickly and efficiently by providing an overview of the general ten- 
dency the data follows. However, it can be a source of confusion. Sometimes 
extreme ups and downs in the use of an n-gram can be perceived as significant 
even though they are not representing enough data with these high (or low) 
values. Or, when comparing the frequencies of an n-gram in two subsets of a 
corpus, some minimal difference might seem insignificant, while it can actually 
be of significance. To our knowledge, there are currently no n-gram viewers that 
eliminate the possibility of such confusions. 

We try to overcome the problem by suggesting that the inclination of the 
user to see significance in the visualization should be taken into account, and 
that various kinds of statistical analysis should be introduced in Slash/A for the 
different tasks that it can be applied to. The following section presents our work 
on two kinds of statistical analysis and their visualization. We call the technique 
statistical filtering as its goal is to extract and present portions of data (defined 
by time intervals) that have the property of obtaining a significant result when 
subjected to a certain statistical text. The first filter presented here indicates the 
intervals of time within which the occurrences of an n-gram are significantly 
higher or lower than in the rest of the period over which the corpus spans. The 
second filter is to be applied when comparing different subsets of the corpus, 
and it indicates the time intervals in which the occurrences of an n-gram in the 
two subsets are significantly different. In what follows, we will present the tech- 
nical side of the analysis as well as the visual representation of the results and 
will use various specific cases as illustrations. 


3. Filters for significant fluctuations in one data set 
Motivation 


The first filter that we present filters out the time intervals throughout which 
a specific n-gram occurs about as much as is expected to occur by chance, 
given its occurrences in the rest of the documents. This way, the user can focus 
on the periods with significantly higher (or lower) frequencies than observed 
in the rest of the corpus. For example, if one is interested in how much a 
formality marker appears in the first letters of Elizabeth Barrett and Robert 
Browning’s correspondence, one should look for periods at the beginning of 
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their exchange that contain significantly more occurrences of this marker than 
the subsequent letters.‘ 


Mechanism to detect significant time intervals 


It is not possible to automatically identify the interval that is of interest for the 
user in their current task and only test it for significance. It is also not possible 
to identify the size or the boundaries of this interval. One possible solution could 
be to ask the user to provide this information for every query. Alternatively, one 
might just adopt a strategy to select intervals to test. We decided to go for a com- 
promise: we let the user determine the size of the interval and let an algorithm 
decide the boundaries. 

We have taken advantage of the possibility to customize the length of the 
tested intervals without complicating the use of the program. The different lev- 
els of smoothing are related to time intervals of different length, and the same 
approach can also be used for the statistical tests. Thus, the user is specifying 
two things at the same time - the size of the sliding window for the moving 
average smoothing, and the size of the intervals to be tested. 

After the size of the intervals of interest is determined, it is checked if the size 
is meaningful. Having intervals longer than the half of the whole time period 
tested is not allowed because it can be confusing when presented visually: The 
tested interval should appear as an object against the rest of the period as back- 
ground, but if what has to be perceived as background were smaller, the exact 
opposite visual effect would be produced. Following the principle of a sliding 
window, all sub-intervals of the specified length are tested for significant differ- 
ence from the rest of the data. We have decided to apply the standard one-tailed 
X° test and one-tailed Fisher exact test of independence (Fisher, 1950), each of 
which determines if two variables are connected, i.e., if one can be used as a 
predictor for the other. The two variables tested for independence here possess 
a certain linguistic feature (e.g., being a noun or containing the consonant com- 
plex “np”) and belonging to a certain time interval. 

In the general case, we use x, which is faster to compute. But whenever there 
are too few observations, which is usually the case with longer n-grams and with 
some rare n-grams, we apply the Fisher test of independence as it also provides 
reliable results in these cases. 


6 See the “Examples” section for clarification. 
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Figure 3.1: Frequency of nouns in the Brownings’ corpus (level of smoothing: 
three months, smoothing parameter p = 45). 


Visualization 


Visualizing potentially overlapping intervals with either high or low frequency 
is challenging. First, one needs to make sure that the difference between the indi- 
cations for significantly higher and significantly lower values is clear. Second, it 
is important to deal with cases of overlaps without introducing confusion. 

The solution we will present here, which is also illustrated in Figure 3.1, 
is to indicate only the centers of the significant intervals. This way, we avoid 
the problem of overlaps in the visual presentation. Furthermore, since centers 
of intervals are points, one can use special marks to indicate them (instead of 
changing the properties of the part of the line that represents the interval, which 
is presumably a more confusing approach). These special marks can have two 
sets of features — one that associates them with the graph they belong to, and 
the other that makes it clear if this is a period with a lower or higher frequency 
than in the rest of the documents. We decided to include the stroke color of the 
mark (which should be the same as that of the graph) in the first set of features 
and the filling color of the mark in the second set. If the mark has a white center, 
it indicates that it denotes an interval with a low frequency, and if the mark is 
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Figure 3.2: Statistical details on demand: Frequency of nouns in the Brownings’ 
corpus (level of smoothing: three months, smoothing parameter p = 45). 


filled with a solid color (the color of the graph), it indicates an interval with a 
high frequency. 

We have included functionality of statistical details on demand, which is 
illustrated in Figure 3.2. To indicate the boundaries of the intervals, we color the 
background whenever the center of a significant interval is pointed at. For this, 
we use the color of the selected mark, but with a very low opacity. The details 
about the significance hypothesis are shown in a tooltip. 


4. Filters for significant differences between two data sets 
Motivation 

The filter described above is applicable to one time series at a time. However, 
significance filtering can also be very useful in a task that involves comparison 


between two time series - that is, to compare the frequencies of a certain n-gram 
in two distinct groups of texts. 
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Mechanism for detecting significant periods 


Detection of significant periods in this filter is similar to that used for the first 
one, with the important difference that not one interval is compared to the rest 
of the data, but two subsets of the data are compared to each other at a given 
time interval. Again, we use a sliding window with the size of the moving aver- 
age sliding window to go through the whole time series and detect intervals with 
significant results. 


Visualization 


The visualization of significant differences between data subsets inherits the 
idea of only indicating the center of the intervals, and it does so by placing a 
thin red line connecting the two time series. On mouse-over over a red line, one 
obtains the indication of the interval length in the background and a tooltip with 
additional information, as shown in Figure 4. 
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Figure 4: Comparison of the frequency of pronouns in the letters by Robert 
and Elizabeth (smoothing parameter p = 307). 
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5. Examples 
General notes 


The statements that we will use here to demonstrate the statistical filtering 
functionality of Slash/A are from the domains of formality theory and of gender 
linguistics. More specifically, the statement about nouns as an indicator of lan- 
guage formality is taken from Heylighen and Dewaele (1999), and the statement 
about the gender specific use of pronouns comes from Koppel et al. (2002) and 
Argamon et al. (2003). The corpus that will be surveyed is the Brownings’ corpus 
mentioned earlier. 


Investigating one data set 


Let us explore the statement “Formal language is characterized by higher fre- 
quency of nouns” using Slash/A. Figure 3.1 shows that the beginning of the 
correspondence is characterized by a significantly higher frequency of nouns 
than in the rest of the corpus. The end of the correspondence is characterized 
by a significantly lower frequency of nouns. Thus, the language in the corpus 
contains more formal markers (nouns in this particular case) in the first quar- 
ter of the exchange and less formal markers in the last quarter. It is interesting 
that the middle part of the time series doesn’t follow the expected pattern of 
a gradual lowering of the formality level. The rare occurrence of nouns in the 
second quarter of the period is followed by a frequent use of them, which could 
be indicative of two things: (i) that the formality of the correspondence does 
not evolve linearly, but rather goes back and forth; or (ii) that the frequency of 
nouns is also a marker for something else, and this other thing interferes with 
the formality of the language producing unclear patterns. To check if (i) holds, 
we can look at a higher level of smoothing. The expectation would be that when 
longer intervals are taken into account, not quarters but halves of the whole 
periods will be marked for significance, and the first half will contain more 
occurrences of nouns than the second one. Figure 5.1 is obtained by applying 
the largest smoothing parameter that is accessible for fluctuations testing. One 
can no longer see anything informative about the beginning and the end of the 
letter exchange as the differences in noun usage are not significantly different. It 
appears that the presence of this formality marker does not change linearly over 
time - at least not for the whole collection of letters. 
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Figure 5.1: Frequency of nouns in the Brownings’ corpus (a custom smoothing 
parameter p = 153) 
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Figure 5.2: Frequency of nouns in the letters by Robert and Elizabeth sepa- 
rately (smoothing parameter p = 153). 
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To explore the question further, one can look at Elizabeth’s and Robert’s let- 
ters separately.” An interesting observation can be made from Figure 5.2: Eliza- 
beth’s letters show a linear decrease in the use of nouns. That is, on a larger scale, 
the formality level of her letters lowers neatly linearly with time. On the other 
hand, Robert appears to be following a contrary pattern, his use of nouns in the 
first half of the exchange being lower than in the second one. 

Making sense of all these observations would require some exploration of 
other formality markers. What we can suggest as a possible interpretation is 
that Robert was quicker in dropping this particular formality marker (there are 
multiple low frequency marks in the second quarter of Robert’s time series in 
Figure 5.1). Elizabeth held on to her nouns longer and lowered their use more 
significantly only after the first half of the correspondence period. A process of 
language adaptation can explain why Robert then raised his use of nouns to a 
level closer to the one his beloved respondent was sustaining. 


Comparing two data sets 


For the second type of filtering, we present the results obtained by exploring the 
statement “Women use more pronouns than men”. Figure 4.ı above illustrates 
the statement - Elizabeth uses more pronouns than Robert in the course of their 
correspondence.’ More interesting is what can be seen in a less smoothed view, 
like the one in Figure 5.3. It again shows that Elizabeth uses pronouns signifi- 
cantly more often, but only in certain periods, and that there are times when the 
frequencies of pronouns in the letters of the two authors are so close that their 
differences are insignificant. 


6. Conclusion and Future Work 


We have presented Slash/A N-gram Tendency Viewer that extracts data from 
a corpus, conducts searches on it, calculates and plots n-gram frequencies and 
smooths them. We have also discussed the advantages of including a significance 
filtering functionality and proposed two significance filters to improve the user’s 


7 Note that the number and distribution of data points are different when we inspect 
Elizabeth’s and Robert’s letters separately compared to inspecting the corpus as a 
whole. In the latter case, each data point represents one day, and the frequency is 
calculated based on all the letters written on this day. 

8 The parameter 307 is chosen because it is the largest parameter value that can be 
applied to this data. 
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Figure 5.3: Comparison of the frequency of pronouns in the letters by Robert 
and Elizabeth (level of smoothing: three months, smoothing parameter p = 45). 


certainty level in their conclusions. One of the filters shows periods with signifi- 
cantly different values as compared to the rest of the time series, and the other 
one shows significant differences between two time series. 

As future work, other similar filters could be introduced for other kinds of tasks. 
For example, one that indicates the time intervals throughout which a certain 
combination of words is used more often than it is expected for these words to 
appear together by chance. This can be helpful for collocation strength monitor- 
ing if collocations are understood simply as words occurring together unexpect- 
edly often (for the definition of collocation, see Dale et al., 2000). 
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Visualization as a Key Factor for the 
Usability of Linguistic Annotation Tools 


1. 


Digital annotations are an important means to make the daily flood of informa- 
tion manageable, as they allow us to add “invisible intelligence” (Ruecker et al. 
2011, 27) to a text, thus making implicit information explicitly available for com- 
puter-based analyses’. Linguistic annotation constitutes a specific type of digital 
annotation. Leech (1997, 2) defines it as “the practice of adding interpretative, 
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Abstract Linguistic annotation is an important means of adding information 
to corpora of spoken or written language. While some less complex annota- 
tion tasks can be performed automatically, a great number of annotation tasks 
require manual annotation, which is typically very time-consuming and 
tedious. As a consequence, tools for manual annotation tasks should provide 
a user-friendly interface that makes the annotation process as convenient and 
efficient as possible; in other words, usability should play an important role in 
the design of such tools. This article contributes to the field of “visual linguis- 
tics” by investigating the role of visualization in linguistic annotation tools with 
regard to good and bad usability practices. While there are several studies that 
are dedicated to visualizing linguistic results, visualization in the context of 
linguistic annotation has so far been largely neglected. Accordingly, a heuristic 
walkthrough evaluation study with 11 annotation tools was conducted to find 
out about typical usability problems. It showed that many of the usability issues 
identified during the evaluation are related to aspects of interaction design. 
However, there are also a large number of usability issues that are directly con- 
nected to aspects of visualization and visual design. These aspects of good and 
bad visualization are discussed by means of existing usability heuristics, which 
can be used to illustrate and explain how and why visualization influences the 
usability of linguistic annotation tools. 


Introduction 


The work presented in this article is part of a PhD project finished in 2014 (cf. Burg- 
hardt 2014). This article reuses some of the passages from the original PhD thesis. The 
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linguistic information to an electronic corpus of spoken and/or written lan- 
guage data”. Linguistic annotation can be carried out manually, automatically, or 
semi-automatically (i.e. automatic annotation with manual correction) (McEn- 
ery and Hardie 2o12, 3o). Automatic annotation, however, is limited to fields of 
manageable degrees of complexity (hence it is also called shallow annotation), 
including simple text processing tasks such as tokenization and sentence seg- 
mentation, or simple tagging and parsing tasks such as part of speech tagging 
or syntactic phrase detection / categorization (Brants and Plaehn 2ooo, 1). More 
sophisticated types of annotation cannot be fully automated, but rather need to 
be carried out by human annotators (cf. Brants and Plaehn 2ooo; Dandapat et 
al. 2009). As manual annotation is a laborious task, computer-based annotation 
tools need to provide a user-friendly interface that makes the annotation process 
as convenient and efficient as possible. The important role of usability? in the 
domain of linguistic annotation tools is also stressed by a large body of related 
work (cf. Burghardt and Wolff 2009; Burghardt 2012; Dybkjaer, Berman, Bern- 
sen, et al. 2001; Dipper et al. 2004; Reidsma et al. 2004; Eryigit 2007; Dandapat et 
al. 2009; McEnery and Hardie 2012, 33; Palmer and Xue 2010; Hinze et al. 2012). 

In this article, I will focus on the aspect of visualization in linguistic annota- 
tion tools and discuss how it influences good and bad usability practices. While 
there are several studies that are dedicated to visualizing linguistic results (cf. 
e.g. Wattenberg and Viegas 2008; Culy and Lyding 2010), visualization in the 
context of linguistic annotation has so far been largely neglected. I present the 
results from a large-scale usability evaluation study (Burghardt 2014) of existing 
annotation tools, which illustrate that an adequate visualization is a key require- 
ment for user-friendly annotation tools. 


2. Evaluating the usability of linguistic annotation tools 


As most of the existing linguistic annotation tools struggle to implement a user- 
friendly interface, I conducted an evaluation study with 11 annotation tools to 
find out not only about typical usability problems, but also about positive aspects 
of the different tools. The evaluated annotation tools are: 


focus of this condensed article lies on the aspect of visualization and its implications 
for the usability of linguistic annotation tools. 

2 ISO 9241-11 (1999) definition for usability: The extent to which a product can be used 
by specified users to achieve specified goals with effectiveness, efficiency, and satis- 
faction in a specified context of use. 


Visualization as a Key Factor for the Usability of Linguistic [...] — 317 


— Analec (http://www.lattice.cnrs.fr/Telecharger-Analec?lang=fr) 
— Brat (http://brat.nlplab.org/) 

— CATMA (http://www.catma.de/) 

— Dexter (http://www.dextercoder.org/) 

— GATE (https://gate.ac.uk/) 

— Glozz (http://www.glozz.org/) 

— Knowtator (http://knowtator.sourceforge.net/docs.shtml) 

— MMAXz (http://mmax2.sourceforge.net/) 

— UAM Corpus Tool (http://www.wagsoft.com/CorpusTool/index.html) 
— WebAnno (https://code.google.com/p/webanno/) 

— WordFreak (http://wordfreak.sourceforge.net/index.html) 


I used the heuristic walkthrough method (Sears 1997) to discover a total of 207 
usability problems and 84 positive aspects for the 11 tools. It showed that many 
of the usability issues identified during the evaluation are related to aspects of 
interaction design. There are, however, also a large number of usability issues 
that are directly connected to aspects of visualization and visual design. 

In the following section, I will discuss aspects of good and bad visualization 
by means of existing usability heuristics. Usability heuristics — sometimes also 
called guidelines, rules, recommendations or best practices — are meant to cap- 
ture and promote good design in a generic way (Johnson 2010, xi). There are 
many examples for such generic heuristics? and they often seem to overlap or 
even appear redundant. This is largely because most of these heuristics share 
a common basis and origin, which is knowledge about human psychology, for 
instance perception, reasoning, memory, etc. (Johnson 2010, xiii). The following 
set of 10 usability heuristics is among the most widely used heuristics (detailed 
descriptions taken from Nielsen 1994, p.30, Table 2.2): 


— Hı Visibility of system status: The system should always keep users informed 
about what is going on, through appropriate feedback within a reasonable 
time. 

— Hz Match between system and the real world: The system should speak the 
users’ language, with words, phrases and concepts familiar to the user, 
rather than system-oriented terms. Follow real-world conventions, making 
information appear in a natural and logical order. 

— H3 User control and freedom: Users often choose system functions by mis- 
take and will need a clearly marked “emergency exit” to leave the unwanted 


3 Cf. Johnson (2010, xi) for an overview of some of the most prominent guidelines and 
heuristics in the field of human-computer interaction (HCI). 
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function without having to go through an extended dialogue. Support undo 
and redo. 

— H4 Consistency and standards: Users should not have to wonder whether 
different words, situations, or actions mean the same thing. Follow platform 
conventions. 

— H5 Error prevention: Even better than good error messages is a careful design 
which prevents a problem from occurring in the first place. Either eliminate 
error-prone conditions or check for them and present users with a confir- 
mation option before they commit to the action. 

— H6 Recognition rather than recall: Minimize the user’s memory load by 
making objects, actions, and options visible. The user should not have to 
remember information from one part of the dialogue to another. Instruc- 
tions for use of the system should be visible or easily retrievable whenever 
appropriate. 

— H; Flexibility and efficiency of use: Accelerators - unseen by the novice user 
- may often speed up the interaction for the expert user so that the system 
can cater to both inexperienced and experienced users. Allow users to tailor 
frequent actions. 

— H8 Aesthetic and minimalist design: Dialogues should not contain informa- 
tion which is irrelevant or rarely needed. Every extra unit of information in 
a dialogue competes with the relevant units of information and diminishes 
their relative visibility. 

— Ho Help users recognize, diagnose, and recover from errors: Error messages 
should be expressed in plain language (no codes), precisely indicate the 
problem, and constructively suggest a solution. 

— Hıo Help and documentation: Even though it is better if the system can be 
used without documentation, it may be necessary to provide help and doc- 
umentation. Any such information should be easy to search, focused on the 
user’s task, list concrete steps to be carried out, and not be too large. 


3. Visualization in linguistic annotation tools - A usability 
perspective 


As a result of the usability evaluation of linguistic annotation tools, a large num- 
ber of usability issues that are related to different aspects of visualization were 
identified. These issues are structured into the following three subsections: (1) 
visualization of primary data, (2) visualization of annotation schemes and its 
items, and (3) visualization of the actual annotations, including parallel annota- 
tions as well as relational annotations (e.g. coreference annotation). The different 
visualization aspects will be discussed from a usability perspective by means of 
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Nielsen’s (1994) ten heuristics, which were introduced in the preceding section. 
Whenever appropriate, I will also refer to related interaction design patterns by 
Jenifer Tidwell (2011), which describe generic solutions to recurring usability 
issues in interface and interaction design. 


(1) Primary data 


During the annotation process, the primary data is typically not read sequen- 
tially from beginning to end, but rather scanned for certain text fragments that 
can be used as an anchor for a specific annotation. The standard visualization 
of primary data often does not support such episodic scanning and reading. 
There are several features that can be implemented on the visualization level to 
enhance the readability of primary data: 


a) The page metaphor allows the user to break down very long documents into 
smaller units that are familiar to the user (cf. Figure 1, left). 
— Heuristic: Match between system and the real world 
— Pattern: Pagination (Tidwell 2o11, 224) 
b) The use of two different colors helps to distinguish alternating lines from each 
other (cf. Figure 1, right). 
— Heuristic: Flexibility and efficiency of use 
— Pattern: Row striping (Tidwell 2011, 220) 
c) Numbered lines facilitate the navigation through the primary data document 
(cf. Figure 1, right). 
— Heuristics: Recognition rather than recall, flexibility and efficiency of use 
d) Facilitated orientation in primary data by means of a macro-view and posi- 
tional syncing (cf. Figure 2): a thumbnailversion of the document (macro-view) 


[Page | 


Annotator 


0 Lifelines for Poor Children What is missi 
This is not a big government boondoggle 
Act ng on it would, however, require us ic 


Eirst Prev. Go to Next Last 


Everyone knows that education boosts pi 
But these proposals are too timid 

They ignore a powerful body of research 
They ignore the role of families in produc 
Thav also ianore or nlav down the critical 


showing 1-10 of 75 sentences 


Figure 1: Pagination (left), row striping (right) and numbered lines (right) in the Brat 
annotation tool. 
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Figure 2: Macro-view of document and positional syncing in the Glozz annotation tool. 


allows users to quickly navigate through long documents. The whole text can 
be accessed via a scrollbar or by clicking into a macro-view of the whole doc- 
ument on the left side. Whenever the mouse cursor is moved somewhere in 
the document, the position is highlighted in the macro-view (and vice versa). 
Good visualization of the primary data increases its readability and thus 
accelerates the overall annotation process 

— Heuristic: Flexibility and efficiency of use 

— Pattern: Overview plus detail (Tidwell 2011, 296) 


(2) Annotation scheme 


The creation of an annotation scheme that defines different levels of annotation 
as well as concrete annotation items on each level is a crucial task in any anno- 
tation project. Typically, annotation schemes are defined by means of document 
grammars known from markup languages like XML or SGML. Users without 
technical knowledge about markup languages will have difficulties in creating a 
scheme in XML syntax. User-friendly annotation tools should provide a visual- 
ization of the annotation scheme that can also be understood by markup novices. 
Adequate visualizations rely on well-known metaphors for the creation of hier- 
archical structures, e.g. ordered lists and file-trees (cf. Figure 3). 
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Figure 3: Hierarchical scheme editor in the UAM CorpusTool. 


As ad hoc modifications of the annotation scheme are part of the typical 
annotation process, a good visualization for annotation schemes speeds up the 
overall annotation process, increases the learnability of the annotation tool and 
decreases the number of potential errors that may occur when novices are forced 
to translate linguistic annotation schemes into formal markup languages. 


— Heuristics: Aesthetic and minimalist design, error prevention 


(3) Annotations 


Linguistic annotations consist of three basic elements: body, anchor and marker 
(Marshall 2010, 42ff.). The body of an annotation is the actual content that is 
added to a text. It is connected to an anchor that denotes the scope of a portion of 
text an annotation relates to. The marker is the actual visualization of the anchor. 
For the case of linguistic annotation tools, typical visualizations for anchors are 
colored underlines or highlights (cf. Figure 4). 

In linguistic annotation scenarios, a single anchor is typically annotated with 
multiple values, which results in parallel annotations (cf. Figure 5). 


322 — Manuel Burghardt 


Lifelines for Poor Children 

What is missing in the current debate over economic inequality is enough serio SIE 
discussion about investing in effective early childhood development from birth to 
age 5. This is not a big government boondoggle policy that would require a huge 


Everyone knows that education boosts productivity and enlarges opportunities, so it is natural that propos 
education for all But these BÜRGER are too timid. TREY ignore a powerful body of research in the econclll 
matter for producing successtul lives ignore the role of families in producing the relevant skills. FEY ais: 
between advantaged and disadvantaged that emerges long before IN enter schoo! 


While education is a great equalizer of opportunity when done right, American policy is going about it all wrong 
do [BM produce the skills that matter most for personal and societal prosperity 


Figure 4: UAM CorpusTool uses underlining (top), GATE uses highlighting (bottom). 


The|dog|sleeps in the garden. 


<noun-phrase> <noun> <sentence> 


Figure 5: The anchor “dog” is annotated on three different annotation levels. 
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Figure 6: Colored highlights in the Dexter annotation tool overlap one another. 
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Figure 7: Stacked, colored underlines in the CATMA annotation tool. 


It shows that some visualizations are better suited for parallel markers than oth- 
ers. Colored highlights do not work well, as they cannot be stacked, but rather 
overlap one another (cf. Figure 6). 

In contrast, underlines are better suited, as they can be stacked without prob- 
lems (cf. Figure 7). 


— Heuristics: Error prevention, aesthetic and minimalist design 


Parallel annotation also poses challenges for the visualization of the annotation 
body, as several competing bits of information - on different levels of annotation 
- need to be displayed in an adequate way. A user-friendly tool visualizes paral- 
lel annotations in a context menu that is displayed next to the respective anchor. 
The annotation values are displayed as text strings in the context menu (cf. Fig- 
ure 8). Alternatively, they may be displayed in a separate window or pane rather 
than in a context menu. Another way to visualize parallel annotation values is 
by means of a stack view that displays an anchor and (optionally) some of its left 
and right textual context in the horizontal dimension. In the vertical dimension, 
parallel annotation values are displayed as a stack of different annotation levels 
(cf. Figure 9). By visualizing multiple, parallel annotations for one anchor, users 
have more control about the annotation process and are therefore less likely to 
produce annotation errors. 


— Heuristics: Visibility of system status, aesthetic and minimalist design 
— Pattern: Datatips (Tidwell 2011, 300) 
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Figure 8: A context menu shows all existing, parallel annotations for a selected anchor 
in the Dexter annotation tool. 
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Figure 9: Parallel annotations are displayed in a stack view with different layers in the 
GATE annotation tool. 


Another major challenge, with regard to adequate visualization, is posed by rela- 
tional annotations, which frequently occur in linguistic annotation scenarios, 
e.g. for the annotation of coreference relations between two or more anchors. 
In a related study on human handwritten annotations in a linguistic context, 
we observed a number of different visualizations for relational annotations (cf. 
Figure 10). The study participants were asked to create coreference annotations 
between an antecedent (ante) and several corresponding personal pronouns (pp). 
In most cases, lines or directed arrows were used to establish a relation between 
the separated constituents. The direction of the arrows was mostly pointing 
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toward the antecedent. The lines and arrows either reached directly from the 
pronouns to the antecedent, thus creating a tree-like structure (a), or they were 
connected in some sort of chain, where only the first pronoun pointed to the 
antecedent and the other pointed to the preceding pronoun (b). In some cases, 
short arrows were used as deictic devices that indicate the direction and position 
of the antecedent (c). Some participants chose to draw their arrows and lines 
directly through the text, while others tried to interrupt the lines so they would 
not obscure the text (d). One participant even tried to draw the lines around 
the text using the margins of the page (e). Another way to establish a relation 
between different constituents is by means of an indexing system (f). 

For the case of linguistic annotation tools, relational annotations should be 
realized by means of arrows or connecting lines (cf. the “chain relation” visual- 
ization in Figure 10b and Figure 11) between the participating anchors, as these 
can be understood by the users in a natural and intuitive way. 


(a) Tree relation. (b) Chain relation. (c) Deictic relation. 


(d) Relation "behind" text. (e) Margin relation. (f) Indices relation. 


Figure 10: Examples for different realizations of relational annotation. 
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Figure 11: Relational annotation visualization in the MMAX2 annotation tool. 
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Figure 12: Alternative view for the visualization of coreference annotations according to 
Witte and Tang (2007). 
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— Heuristics: Match between system and the real world, recognition rather 
than recall, error prevention 


Another good way for the visualization of coreference annotations is described 
by Witte and Tang (2oo7). The proposed solution makes use of Topic Maps and 
OWL ontologies and can be summarized as follows: relational annotations should 
be displayed in a separate view that is detached from the primary data view. 
This view shows all existing relational annotation chains as an integrated graph. 
Such a graph view even allows users to visualize relational annotations from 
different documents and thus greatly facilitates navigation in coreference chains 
and documents (cf. Figure 12). 


— Heuristic: Aesthetic and minimalist design 
— Pattern: Alternative views (Tidwell 2011, 66) 


4. Conclusion 


This article illustrates that visualization plays an important role for the usabi- 
lity of linguistic annotation tools. While there are many competing visualiza- 
tions, existing usability heuristics can be used to assess and discuss their specific 
strengths and weaknesses. This kind of assessment is helpful not only for tool 
developers who design new annotation tools, but also for users of annotation 
tools, who need to choose from a wide variety of applications and who might 
want to use “adequate visualization” as a selection criterion. 
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Visualisierungen spielen in den Wissenschaften eine wichtige Rolle im 
Forschungsprozess. Sie dienen der Illustration von gewonnener Erkenntnis, 
aber auch als eigenständiges Mittel der Erkenntnisgewinnung. 


Auch in der Linguistik sind solche Visualisierungen bedeutend. Beispiels- 

weise in Form von Karten, Baumgraphen und Begriffsnetzen. Bei korpus- 

linguistischen Methoden sind explorative Visualisierungen oft ein wichtiges 
Mittel, um die Daten überblickbar und interpretierbar zu machen. 


Das Buch reflektiert die theoretischen Grundlagen wissenschaftlicher 


Visualisierungen in der Linguistik, zeigt Praxisbeispiele und stellt auch 
Visualisierungswerkzeuge vor. 
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